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KSEE : 使 用 Python 


这 份 文件 的 目的 是 要 提供 Python 之 机 器 学 习 和 套件 scikit-learn (http://scikit-learn.org/) 的 中 文 使 用 说 明 。 一 开始 的 主要 目标 是 
详细 说 明 scikit-learn 套 件 中 的 范例 程式 的 使 用 流程 以 及 相关 函 式 的 使 用 方法 。 目 前 使 用 版 本 局 scikit-learn version 0.19 以 上 


本 书 原 始 资 料 在 Github LAH > Hie ARAM AMA + https://github.com/htygithub/machine-learning-python ° 


本 文件 主要 的 版 本 发 展 


e 0.0: 2015/12/21 
o 开始 本 文件 「 机 器 学 习 : 使 用 Python」 的 撰写 
o 43 VAscikit-learn £ft 85 $645] 4 48 A, 3- $5 
e 0.1: 2016/4/15 
o 『「 机 器 学 习 : 使 用 Python」 文件 
o Contributor: RIF ` 46 RMR ^ RRA 
o #38 ff: Classification, Clustering, cross decomposition, Datasets, feature selection, general examples 
o 新 增 introduction: 说 明 简易 的 Anaconda 安 装 ， 以 及 利用 数字 辨识 范例 来 入 门 机 器 学 习 的 方法 
o 第 10,00018 pageview 达成 
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e 0.2: 2016/8/30 

o 新 增 应 用 章节 ，Contributor: X ii 

o 增 修 章节 : Classification, Datasets, feature selection, general examples 
e 0.3: 2017/2/16 

o 3&7] X 98 >» Contributor: 杨 采 玲 、 欧 育 年 

o 增 修 章节 : Neural Network, Decision tree 

o 2016 年 ， 使 用 者 约 四 菌 人 次 ， 页 面 流量 约 15 菌 次 。 
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Scikit-learn 套件 


Scikit-learn (http://scikit-learn.org/) 是 一 个 机 器 学 习 领 域 的 开源 套件 。 整 个 粤 案 起 始 於 2007 年 由 David Cournapeau 所 执行 
的 Google Summer of Code HË ° A201042% > HARA REAL A Hitt (INRIA, http://www.inria.fr) 继续 
主 半 及 后续 的 支援 及 开发 。 近 路 年 (2013-2015) 则 由 INRIA 支持 Olivier Grisel (http://ogrisel.com) 全 职 负 责 该 套件 的 维 访 工 
作 。 以 开发 者 的 角度 来 观察 ， 会 发 现 Scikit-learn 的 整套 使 用 还 辑 设计 的 极其 简单 。 往 往 能 将 繁杂 的 机 器 学 习 理 论 简 化 到 一 个 
步 晤 完成 。Python 的 机 器 学 习 相 关 套 件 相当 多 ， 高 何 Scikit-learn 会 是 首 膛 之 一 呢 ? 其 实 一 个 开源 套件 的 选择 ， 最 简易 的 指标 
就 是 其 contributor: 贡献 者 ` commits: RARE 以 及 最 新 的 更 新 日 期 。 下 图 是 2016/1/3 经 过 了 美好 的 跨 年 夜 后 ， 筝 
者 於 官方 开源 程式 码 网 站 (https://github.com/scikit-learn/scikit-learn) Pr Ha) È @ o MATAR RA commit 是 四 小 时 
前 ， 且 contributor 及 commit 数量 分 别 高 531 人 及 20,331 个 。 由 此 可 知 ， 至 少 在 2016 年 ， 这 个 专案 万 然 非常 积极 的 在 
有 运作。 在 办 多 机 器 学 习 套 件 中 ， 不 论 是 贡献 者 及 版 本 数量 尼 是 最 订 大 的 。 也 因此 是 本 文件 介绍 机 器 学 习 的 切入 点 。 未 来 ， 我 
们 希望 能 介绍 更 多 的 机 器 学 习 套 件 以 及 理论 ， 也 欢迎 有 志 之 士 共同 参与 维护 。 


scikitieam / scikittearn € Watch- 1,022  * Star 9,021 YFork 5,334 
€ Code Issues 598 Pull requests 390 Wiki Pulse Graphs 


scikit-learn: machine learning in Python http://scikit-learn.org 


D 20,331 commits p 15 branches © 67 releases #531 contributors 





Branch: master ~ Newfile Findfile ^ HTTPS- https://github.com f$ 由 | Download ZIP 


f? GaelVaroquaux Merge pull request #6108 from chezou/chezou-patch-1 += Latest commit e464689 4 hours ago 
i benchmarks MAINT Use with to handle file a month ago 
ii continuous, integration Merge pull request #5578 from waterponey/circleCI push 23 days ago 
im doc fixed target link to isotonic regression example 6 days ago 
W examples FIX Eliminated the use of color cycle in out of core example 6 days ago 
W sklearn Remove extra `+ in document 18 hours ago 
E) .coveragerc coverall added 2 years ago 
& .gitattributes ENH refactor NMF and add CD solver 3 months ago 
E) .gitignore add tags in gitignore a month ago 
E) landscape yml make landscape.io much more useful 10 months ago 
E) .mailmap Adding email to the mailmap 2 months ago 
E) .travis.yml Fix coveralls report sending a month ago 
E) AUTHORS .rst Authors: Update based on #3067 2 years ago 
目 CONTRIBUTING.md Fix #4978: Typo in CONTRIBUTING md 6 months ago 
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Scikit-learn 套件 的 安装 


目前 Scikit-learn 同 时 支援 Python 2 及 3， 安 装 的 方式 也 非常 多 种 。 对 於 初学 者 ， 最 建议 的 方式 是 直接 下 载 Anaconda Python 
(https://www.continuum.io/downloads) ° Fl i}  4£ Windows / OSX/ Linux 等 作业 系统 。 相 关 数 据 分 析 套 件 如 Scipy Numpy, 
A. FU e RE matplotlib, bokeh 会 同时 安装 。 


开发 介面 及 环境 


笔者 目前 最 常用 的 开发 介面 高 IPython Notebook (3.0 版 后 已 改名 高 Jupyter Notebook) 以 及 Atom.io 文字 编辑 器 
Anaconda/* M| IPython Notebook4r dn 4& > Jt tik 5 Z ELS SP Se P VUL RE E85 AIT BEA o A ui 
notebook 格 式 文件 .ipynb 档 可 借 下 载 。 


在 安装 


M Jupyter EX1 Last Checkpoint: 12/23/2015 (unsaved changes) e 
File Edit View Insert Cell Kernel Help | Python 2 O 
Bi) +) x| I| ^ tn» lC |code v Cell Toolbar: None M 
In [3]: 1 %matplotlib inline 


import matplotlib.pyplot as plt 


# Import datasets, classifiers and performance metrics 
from sklearn import datasets, svm, metrics 


7 # The digits dataset 
digits - datasets.load digits() 
Ə # The data that we are interested in is made of 8x8 images of digits, Let's 
# have a Look at the first 3 images, stored in the “images” attribute of the 
12 # dataset. If we were working from image files, we could Load them using 
# pylab.imread. Note that each image must have the same size. For these 
14 # images, we know which digit they represent: it is given in the ‘target’ of 
5 # the dataset. 
images and labels - list(zip(digits.images, digits.target)) 
17 for index, (image, label) in enumerate(images and labels[:4]): 
plt.subplot(2, 4, index + 1) 
plt.axis('off') 
plt.imshow(image, cmap=plt.cm.gray_r, interpolation-'nearest') 
plt.title('Training: %i' X label) 


Training: 0 Training: 1 "Training: 2 Training: 3 


i 


im [ ]: 


给 机 器 学 习 的 初学 者 


本 文件 的 目的 准 非 探讨 机 器 学 习 的 各 项 理论 ， 我 们 将 以 应 用 范例 著 手 来 帮助 学 习 。 其 中 建议 以 手写 数字 办 识 来 当成 的 敲 门 
硅 。 而 本 文件 中 ， 有 以 下 范例 介绍 手写 数字 辨识 ,着 且 藉 由 这 个 应 用 来 探讨 机 器 学 习 中 的 一 个 重要 类 别 「[ 监 督 式 学 习 」]。 一 
开始 ， 建 议 先 从 机 器 学 习 资 料 集 Datasets， 来 了 解 资 料 集 的 型 驴 以 及 取得 方式 。 接 下 来 最 重要 的 是 落 清 特征 X 以 及 预测 目 
标 y 之 问 的 天保。 要 注意 这 净 的 大 写 的 x MERAH, 每 一 列 代表 一 笔 资料 ， 而 每 一 行 则 代表 其 特征 。 例 如 手写 数 
字 辩 识 是 利用 8x8 的 影像 资料 ， 来 当成 训练 集 。 而 其 中 一 种 特 微 的 取 用 方法 是 例 用 这 64 个 像素 的 灰 阶 值 来 当成 特征 。 而 小 写 
的 y MRAM AE > BSS HIRAM TAB © 


Training: 0 Training: 1 Training: 2 Training: 3 





了 解 资 料 集 之 后 ， 接 下 来 则 建议 先 当 试 分 类 法 气 例 一 例 用 最 简单 的 支持 向 量 机 (Support Vector Machine) 分 类 法 来 达成 多 目 
标 分 类 (Multi-class classification) > i$ R49 [ £ BH 4$ | 485975051989 F > Kel 4] A Scikit-learnN E 9SVM 2-78 R > RAR 
出 十 个 目标 的 分 类 公式 ， 差 介绍 如 何 评 估 分 类 法 的 准确 度 ， 以 及 一 些 常见 的 分 类 指标 。 例 如 以 下 报表 标示 著 对 於 10 个 数字 的 


预测 准确 度 。 有 了 对 这 个 范 例 的 初步 认识 之 后 ， 读 者 应 该 开始 感 党 到 监督 式 学 习 (Supervised learning) 89 & & * i$ XE TE 
督 」 的 意思 是 ， 我 们 已 经 知道 资料 所 对 应 的 预测 目标 ， 也 就 是 图 形 可 猜 出 数字 。 也 就 是 训练 集中 有 y 。 而 另 一 大 类 别 


「 非 监督 式 学 习 」 则 是 我 们 一 开始 痊 不 知道 y ， 我 们 想 透 过 演算 法 来 将 y 找 出 来 。 例 如 透 过 购买 行 遍及 个 人 资料 来 分 类 消 
费 族群 。 
precision recall f1-score support 
0 1.00 0.99 0.99 88 
al 0.99 0.97 0.98 91 
2 0.99 0.99 0.99 86 
3 0.98 0.87 0.92 91 
4 0.99 0.96 0.97 92 
5 0.95 0.97 0.96 91 
6 0.99 0.99 0.99 91 
7 0.96 0.99 0.97 89 
8 0.94 1.00 0.97 88 
9 0.93 0.98 0.95 92 
avg / total 0.97 0.97 0.97 899 


ma AT RAM PEAK > HEE RY FO BY EA EAE RB 3G ME AA 09 E ETE o VUES FHA SL o Lit yl FMEA T 

64 个 像素 来 当成 特征 ， 然 而 以 常理 来 判断 。 这 64 个 像素 中 ， 处 於 影像 韶 缘 的 像素 参考 价值 应 该 不 高 ， 因 局 手写 的 笔画 鲜 少 出 
现在 该 处 。 若 能 将 这 些 特征 资料 排除 在 分 类 公式 中 ， 通 常 能 再 增进 预测 的 准确 度 。 而 「 特 征 选 择 」 的 这 项 技术 ， 主 要 就 是 用 

RRRA o 4 PLETE $2.19] —:Recursive Feature Elimination 则 是 利用 了 Scikit-learn 内 建 的 特征 消去 法 ， 来 找 出 消去 那些 
特 微 能 执 最 住 化 预测 的 准确 度 。 而 特征 选择 和 范例 三 : Recursive Feature Elimination with Cross-Validation 则 使 用 了 更 进 阶 的 
交叉 验证 法 来 切 分 训练 集 以 及 挑战 集 来 评估 准确 程度 。 建 议 读 者 可 以 当 试 这 北 个 箔 例 ， 一 步 步 去 深入 机 器 学 习 的 核心 。 


分 类 法 Classification 


B ~ 大 大 . u . . . 
分 类 法 /范例 一 : Recognizing hand-written digits 
http://scikit-learn.org/stable/auto_examples/classification/plot_digits_classification.html 
这 个 范例 用 来 展示 scikit-learn 机 器 学 习 套 件 ， 如 何 用 SVM 演算 法 来 达成 手写 的 数字 状 识 


利用 make classification 建立 模 所 资料 

利用 sklearn.datasets.load digits() 来 读 取 内 建 资料 库 

用 线性 的 SVC 来 做 分 类 ， 以 8x8 的 影像 之 像素 值 来 当 作 特征 ( 共 64 个 特征 ) 
用 metrics.classification report 来 提供 辨识 报表 


OD 


(一 ) 引 入 函 式 库 及 内 建 手 写 数 字 资 料 库 
引入 之 函 式 库 如 下 


matplotlib.pyplot FA 4 4 88 37 4& 

sklearn.datasets: 用 来 给 入 内 建 之 手写 数字 资料 库 
sklearn.svm: SVM 支持 向 量 机 之 演算 法 物件 
sklearn.metrics: 用 来 评估 辨识 准确 度 以 及 报表 的 显示 


OD 


import matplotlib.pyplot as plt 


from sklearn import datasets, svm, metrics 


# The digits dataset 


digits - datasets.load digits() 


使 用 datasets.load digits() 将 资料 存 入 ， digits 高 一 个 dict 型 别 资 料 ， 我 们 可 以 用 以 下 指令 来 看 一 下 资料 的 内 容 。 


for key,value in digits.items() : 
BEY: 
print (key,value.shape) 
except: 
print (key) 


显示 说 明 
('images', (1797L, 8L, 8L)) 共有 1797 张 影像 ， 影 像 大 小 高 8X8 
('data', (1797L, 64L)) data | X44 0x845 4E PRP ROA LEZ — H6 
(target names", (10L,)) 说 明 10 种 分 类 之 对 应 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 
DESCR 资料 之 描述 
(target, (1797L,)) 记录 1797 张 影像 各 自 代 表 那 一 个 数字 


接 下 来 我 们 试 著 以 下 面 指令 来 观察 资料 档 ， 每 张 影像 所 对 照 的 实际 数字 存在 digits.target 变数 中 


images and labels = list(zip(digits.images, digits.target)) 

for index, (image, label) in enumerate(images and labels[:4]): 
plt.subplot(2, 4, index + 1) 
plt.axis('off') 
plt.imshow(image, cmap-plt.cm.gray r, interpolation- nearest!) 
plt.title('Training: %i' % label) 


Training: 0 Training: 1 Training: 2 Training: 3 
E 
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JEP RAY UNSERE] reshape 指令 将 8x8 的 影像 资料 拓 平 成 64x1 的 矩阵 。 接著 用 classifier = 
svm.SVC(gamma-0.001) 产生 一 个 SVC 分 类 器 (Support Vector Classification)。 再 将 一 半 的 资料 送 入 分 类 器 来 训 

a classifier.fit( 资 料 :898x64， 分 类 目标 :898x1) 。SVC 之 预 设 kernel function RBF (radial basis function): $$\exp(- 
\gamma |x-x'|^2)$$. 其 中 Svc(gamma=0.001) 3b SE XRBF£ CE S$$9amma$$ 这 个 值 必 需要 大 於 零 。 最 后 ， 再 利用 
后 半 部 份 的 资料 来 测试 训 彝 完成 之 SVC 分 类 机 predict(data[n samples / 2:]) 将 预测 结果 存 入 predicted 变数 ,而 
RA) AR ARAB GH expected 变数 ， 用 於 下 一 季 之 准确 度 统计 。 


n samples = len(digits.images) 


# YWOHET:1797 X 8 x 8 -> 1797 x 64 





'j84** (n samples, 64) 





算 


# 这 里 的 -1 代表 自动 


data = digits.images.reshape((n samples, -1)) 


# 座 生 SVC 分 类 器 


classifier = svm.SVC(gamma=0 .001) 


# 用 前 半 部 份 的 资料 来 训 缚 


classifier.fit(data[:n samples // 2], digits.target[:n samples // 2]) 
expected - digits.target[n samples // 2:] 


# 利 用 后 半 部 份 的 资料 来 测试 分 类 器 ， 共 899 笔 资料 
predicted = classifier.predict(data[n samples // 2:]) 
若是 观察 expected 及 predicted #2 P 351048 & St 9T AA: 


e expected[:10] [884908981 2] 
e predicted[:10] [88490 8 9 8 1 2] 


这 说 明了 前 10 个 元 素 中 ， 我 们 之 前 训练 完 成 的 分 类 机 ， 正 确 的 分 类 了 手写 数字 资料 。 那 对 於 全 部 测试 资料 的 准确 度 呢 ? 要 如 
何 量 测 ? 


(三 ) 分 类 准确 度 统计 


那 在 判断 准确 度 方面 ， 我 们 可 以 使 用 一 个 名 馈 「 混 淆 矩阵 」(Confusion matrix) 的 方式 来 统计 。 


print("Confusion matrix:\n%s" 


96 metrics.confusion matrix(expected, predicted)) 


使 用 sklearn 中 之 metrics 物 件 ， metrics.confusion_matrix( £# #4#+:899, fümi4:899) TAA) WP GAH o t4ERE 
对 角 线 左上 方 第 一 个 数字 87， 代 表 实 际 启 0 且 预 测 扁 0 的 总 数 有 87 个 ， 同 一 列 (row) 第 五 个 元 素 则 代表 ， 实 际 局 0 但 判断 局 4 的 
资料 个 数 镶 1 个 。 


Confusion matrix: 


[[87 © 0 0 10 0 0 © 9] 
[088 10 0 © © O 1 1] 
[0 08 10 0 O 0 © 90] 
[098 079 0 3 O0 4 5 0] 
[009 © 088 © O 0 © 4] 
[00 00 088 10 0 2] 
[0100 0 0990 0 0 90] 
[0 0 © © 0 1 088 0 90] 
[008.0000 © 088 60] 
[008.010 1 © © 0 99]] 


我 们 可 以 利用 以 下 的 程式 码 将 混淆 矩阵 图 示 出 来 。 由 图 示 可 以 看 出 ， 实 际 局 3 时 ， 有 数 次 误 判 局 5,7,8。 


def plot confusion matrix(cm, title-'Confusion matrix', cmap-plt.cm.Blues): 
import numpy as np 
plt.imshow(cm, interpolation-'nearest', cmap=cmap) 
plt.title(title) 
plt.colorbar() 
tick marks - np.arange(len(digits.target names)) 
plt.xticks(tick marks, digits.target names, rotation-45) 
plt.yticks(tick marks, digits.target names) 
plt.tight layout() 
plt.ylabel('True label') 
plt.xlabel('Predicted label') 


plt.figure() 
plot confusion matrix(metrics.confusion matrix(expected, predicted)) 


Confusion matrix 
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而 在 


metrics 物 件 庄 也 提供 了 方便 的 函 式 metrics.classification report(expected, predicted) 计算 


写 影 像 3 局 例 ， 我 们 可 以 用 四 个 数字 来 探讨 判断 的 精准 度 。 


True Positive(TP, & B7): X RASLI Bp A3 > 7918 
False Positive(FP, 偏 阳 ): 判 断 局 3 但 判断 错误 ， 共 2 个 
&): 


False Negative(FN, 偏 除 ): 实 际 启 3 但 判断 错误 ， 共 12 个 


True Negative(TN, I): IRA A3 > LIJE EE o ate 3-$5899-79-2-12-88518 


机 器 学 习 理 论 中 ， 我 们 通常 用 以 下 precision, recall, f1-score 来 探讨 精确 度 。 以 手写 影像 3 局 例 。 


precision = TP/(TP+FP) = 79/81 = 0.98 
判断 局 3 且 实 际 遍 3 的 比例 局 0.98 
recall = TP/(TP+FN) = 79/91 = 0.87 
实际 局 3 且 判 断 启 3 的 比例 局 0.87 
f1-score 则 高 以 上 雨 者 之 [harmonic mean 调和 平均 数 ] 
f1-score= 2 x precision x recall/(recision + recall) = 0.92 


print("Classification report for classifier %s:\n%s\n" 


% (classifier, metrics.classification report(expected, predicted) ) ) 


此 报表 最 后 的 support > PI AX RAE SE ERA 3-8 RFR © Hd 


0 实际 局 3 的 数字 共有 91 个 。 


precision recall f1-score support 

0 1.00 0.99 0.99 88 
1 0.99 0.97 0.98 91 
2 0.99 0.99 0.99 86 
3 0.98 0.87 0.92 91 
4 0.99 0.96 0.97 92 
5 0.95 0.97 0.96 91 
6 0.99 0.99 0.99 91 
7 0.96 0.99 0.97 89 
8 0.94 1.00 0.97 88 
9 0.93 0.98 0.95 92 
avg / total 0.97 0.97 0.97 899 


最 和 后， 用 以 下 的 程式 码 可 以 观察 测试 影像 以 及 预测 (分 类 ) 结 果 得 对 应 天 你 。 


images_and_predictions = list( 


zip(digits.images[n_samples // 2:], predicted)) 


for index, (image, prediction) in enumerate(images and predictions[:4]): 


plt.subplot(2, 4, index + 5) 
plt.axis('off') 


plt.imshow(image, cmap-plt.cm.gray r, interpolation='nearest') 


plt.title('Prediction: %i' % prediction) 


plt.show() 


以 上 统计 数据 。 





Prediction: 8 Prediction: 8 Prediction: 4 Prediction: 9 
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(四 ) 完 整 程式 码 





Python source code: plot_digits_classification.py 


http://scikit-learn.org/stable/_downloads/plot_digits_classification.py 
print(__doc__) 


# Author: Gael Varoquaux <gael dot varoquaux at normalesup dot org> 


# License: BSD 3 clause 


# Standard scientific Python imports 
import matplotlib.pyplot as plt 


# Import datasets, classifiers and performance metrics 


from sklearn import datasets, svm, metrics 


# The digits dataset 
digits = datasets.load_digits() 


The data that we are interested in is made of 8x8 images of digits, let's 


have a look at the first 4 images, stored in the ‘images attribute of the 


# 
# 
# dataset. If we were working from image files, we could load them using 
# matplotlib.pyplot.imread. Note that each image must have the same size. For these 
# images, we know which digit they represent: it is given in the 'target' of 
# the dataset. 
images and labels = list(zip(digits.images, digits.target) ) 
for index, (image, label) in enumerate(images_and_labels[:4]): 
plt.subplot(2, 4, index + 1) 
plt.axis('off') 
plt.imshow(image, cmap-plt.cm.gray r, interpolation='nearest') 
plt.title('Training: %i' % label) 


# To apply a classifier on this data, we need to flatten the image, to 
# turn the data in a (samples, feature) matrix: 
n samples - len(digits.images) 


data = digits.images.reshape((n samples, -1)) 


# Create a classifier: a support vector classifier 


classifier = svm.SVC(gamma=0 .001) 


# We learn the digits on the first half of the digits 
classifier.fit(data[:n_samples // 2], digits.target[:n_samples // 2]) 


# Now predict the value of the digit on the second half: 
expected = digits.target[n_samples // 2:] 


predicted = classifier.predict(data[n samples // 2:]) 


print("Classification report for classifier %s:\n%s\n" 
% (classifier, metrics.classification report(expected, predicted) ) ) 


print("Confusion matrix:\n%s" 96 metrics.confusion_matrix(expected, predicted) ) 


images_and_predictions = list(zip(digits.images[n_samples // 2:], predicted) ) 
for index, (image, prediction) in enumerate(images_and_predictions[:4]): 
plt.subplot(2, 4, index + 5) 
plt.axis('off') 
plt.imshow(image, cmap-plt.cm.gray r, interpolation='nearest' ) 


plt.title('Prediction: %i' % prediction) 


plt.show() 


分 类 法 /范例 二 : Normal and Shrinkage Linear Discriminant Analysis 
for classification 


http://scikit-learn.org/stable/auto_examples/classification/plot_lda.html 
这 个 范例 用 来 展示 scikit-learn 如 何 使 用 Linear Discriminant Analysis (LDA) 线性 判别 分 析 来 达成 资料 分 类 的 目的 


利用 sklearn.datasets.make blobs 产生 测试 资料 

Al eA BR generate data 产生 具有 数 个 特征 之 资料 集 ， 其 中 仅 有 一 个 特征 关於 资料 分 料 判 断 有 意 
使 用 LinearDiscriminantAnalysis 来 达成 资料 判别 

比较 於 LDA 演 算法 中 ， 并 和 启 shrinkage 前 后 之 差 县 


BOND 


(一 ) 产 生 测试 资料 


从 程式 码 来 看 ， 一 开始 主要 局 自 定 义 函 数 generate data(n samples, n features) ， 这 个 函数 的 主要 目的 局 产生 一 组 
测 斌 资料， 总 资料 列 数 局 n samples ， 每 一 列 共 有 n features 个 特征 。 而 其 中 只 有 第 一 个 特征 得 以 用 来 判定 资料 类 
别 ， 其 他 特征 则 毫 乱 意义 。 make blobs 负责 产生 单一 特征 之 资料 后 ， 利 用 “np.random.randn ' 乱 数 产生 其 他 “ 

n features - 1 “个 特征 ， 之 后 利用 np.hstack "KP" (horizontal) > RÈ RXRA ALAE EZ EA 


%matplotlib inline 
from — future _ import division 
import numpy as np 


import matplotlib.pyplot as plt 


from sklearn.datasets import make blobs 


from sklearn.discriminant analysis import LinearDiscriminantAnalysis 


n train - 20 £ samples for training 

n test = 200 # samples for testing 

n averages = 50 # how often to repeat classification 
n features max = 75 # maximum number of features 


step = 4 # step size for the calculation 


def generate data(n samples, n features): 
X, y = make blobs(n samples-n samples, n features-i, centers=[[-2], [2]]) 
à add non-discriminative features 
if n features > 1: 
X - np.hstack([X, np.random.randn(n samples, n features - 1)]) 


return X, y 


BATT AU ECT SS 42 AAR AEA ZAAN OR ELE T X (10x5 E) A y(1018 LEAS) > RITE 
用 pandas.DataFrame 套件 来 观察 资料 


X, y = generate data(10, 5) 


import pandas as pd 

pd.set option('precision',2) 
df-pd.DataFrame(np.hstack([y.reshape(10,1),X])) 
dfcolumns =" [*y", X9 XU EX2t “X25, "x4!" ] 
print(df) 


结果 显示 如 下 。“。 我 们 可 以 看 到 只 有 X 的 第 一 行 特 征 资 料 (X0) 与 目标 数值 y 有 一 个 明确 的 对 应 关 傈 ， 也 就 是 y 遍 1 时 ， 数 值 较 
大 。 


XO Xi X2 X2 X4 
0.38 0.35 0.80 -0.97 -0.68 
2.41 60.31 -1.47 0.10 -1.39 
1.65 -0.99 -0.12 -0.38 0.18 
-4.86 0.14 -0.80 1.13 -1.31 
.06 -1.99 -0.70 -1.26 -1.64 
S50 d 45-0:839903747 2:97, 
-2.50 0.44 -0.45 -0.55 -0.42 
1255 3:38. 20293 -1-44- 9527. 
-1.95 0.32 -0.28 0.02 0.07 
-0.58 -0.07 -1.01 0.15 -1.84 


(o o - DOO 5 WN RP © 
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ET RENGRA RAMA PARAMS 9 BERI 2 ICE ALDAZ ARAR o d$ 

用 LinearDiscriminantAnalysis RIRIH 25 > i842 PA shrinkage-'auto' 以 及 shrinkage=None 来 控制 
shrinkage 之 开关 ， 将 分 类 器 分 别 以 clf1 以 及 clf2 储存 。 之 和 后 再 产生 新 的 测试 资料 将 准确 度 加 

A score clfi X score clf2 X > BEB]PAEEL Z & MRVASESEVLECE MI © 


acc clfi, acc clf2 - [], [] 
n features range = range(i, n features max + 1, step) 
for n features in n features range: 

score clfi, score clf2 = 0, 0 

for _ in range(n averages): 


X, y = generate data(n train, n features) 


clfi = LinearDiscriminantAnalysis(solver='lsqr', shrinkage-'auto').fit(X, y) 
clf2 


LinearDiscriminantAnalysis(solver-'lsqr', shrinkage=None).fit(X, y) 


X, y 7 generate data(n test, n features) 





score clfi += clfi.score(X, y) 


score clf2 += clf2.score(X, y) 


acc clfi.append(score clfi / n averages) 


acc clf2.append(score clf2 / n averages) 


(三 ) 显 示 LDA 判 列 结果 


这 个 范例 主要 希望 能 得 知 shrinkage 的 功能 ， 因 此 画 出 雨 休 分 类 准确 度 的 曲线 。 比 四 代表 平均 的 分 类 准确 度 ， 而 横 轴 代表 

的 是 features samples ratio 顾 名 思 闵 ， 它 是 模 气 资料 中 ， 特 币 数 量 与 训 张 资料 列 数 的 比例 。 当 特征 数量 局 75 且 训 张 资 
料 列 数 仅 有 20 笔 时 ， features samples ratio = 3.75 由 於 资料 列 数 过 少 ， 壮 致 礁 确 率 下 降 。 而 此 时 shrinkage 演算 
法 能 有 效 维持 LDA 演 算法 的 准确 度 。 


E 
[ 


EX 2: Normal and Shrinkage Linear Discriminant Analys 





features samples ratio = np.array(n features range) / n train 
fig - plt.figure(figsize-(10,6), dpi-300) 
plt.plot(features samples ratio, acc clfi, linewidth=2, 

label-"Linear Discriminant Analysis with shrinkage", color='r') 
plt.plot(features samples ratio, acc clf2, linewidth-2, 

label-"Linear Discriminant Analysis", color='g') 
plt.xlabel('n features / n samples') 
plt.ylabel('Classification accuracy') 


plt.legend(loc-i, prop={'size': 10}) 
plt.show() 


— Linear Discriminant Analysis with shrinkage 
— Linear Discriminant Analysis 
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(四 ) 完 整 程式 硒 
Python source code: plot Ida.py 
from — future _ import division 


import numpy as np 


import matplotlib.pyplot as plt 


from sklearn.datasets import make blobs 


from sklearn.discriminant analysis import LinearDiscriminantAnalysis 


n train - 20 £ samples for training 

n test = 200 # samples for testing 

n averages = 50 # how often to repeat classification 
n features max = 75 # maximum number of features 


step = 4 # step size for the calculation 


def generate data(n samples, n features): 


"""Generate random blob-ish data with noisy features. 


This returns an array of input data with shape '"(n samples, n features) 


and an array of ^n samples' target labels. 


Only one feature contains discriminative information, the other features 
contain only noise. 


X, y = make blobs(n samples-n samples, n features-i, centers=[[-2], [2]]) 


à add non-discriminative features 
if n features » 1: 
X - np.hstack([X, np.random.randn(n samples, n features - 1)]) 


return X, y 


acc clfi, acc clf2 = [], [] 
n features range = range(i, n features max + 1, step) 
for n features in n features range: 

score clf1, score clf2 = 0, 0 

for _ in range(n averages): 


X, y = generate data(n train, n features) 


clfi = LinearDiscriminantAnalysis(solver-'lsqr', shrinkage='auto').fit(X, y) 
clf2 


LinearDiscriminantAnalysis(solver-'lsqr', shrinkage=None).fit(X, y) 


X, y 7 generate data(n test, n features) 





score clfi += clfi.score(X, y) 


score clf2 += clf2.score(X, y) 


acc clfi.append(score clfi / n averages) 


acc clf2.append(score clf2 / n averages) 


features samples ratio - np.array(n features range) / n train 


plt.plot(features samples ratio, acc clfi, linewidth=2, 
label-"Linear Discriminant Analysis with shrinkage", color='r') 
plt.plot(features samples ratio, acc clf2, linewidth-2, 


label-"Linear Discriminant Analysis", color='g') 


plt.xlabel('n features / n samples') 


plt.ylabel('Classification accuracy') 


plt.legend(loc-i, prop={'size': 12}) 

plt.suptitle('Linear Discriminant Analysis vs. \ 

shrinkage Linear Discriminant Analysis (1 discriminative feature) ') 
plt.show() 


EX 2: Normal and Shrinkage Linear Discriminant Analysis for classification 
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分 类 法 /范例 三 : Plot classification probability 


这 个 范例 的 主要 目的 


e 使 用 iris E C YR k 
e 测试 不 同 分 类 器 对 於 涵 蔓 特定 范围 之 资料 集 ， 分 类 局 那 一 种 交尾 花 的 机 率 
e 例如 : sepal length 局 4cm 而 sepal width Æ 3cm 时 被 分 类 局 versicolor 的 机 率 


(—) FH A Bae 


e AAE Airis 高 尾 花 资料 集 ， 使 用 iris = datasets.load iris() 将 资料 存 入 
o PEX ( 特 微 资料 ) 以 及 y (B EGER > GER A a MAE RIE 3 


import matplotlib.pyplot as plt 
import numpy as np 


from sklearn.linear model import LogisticRegression 
from sklearn.svm import SVC 


from sklearn import datasets 


iris - datasets.load iris() 
X = iris.data[:, 0:2] # 仅 使 用 前 两 个 特征， 方便 视 党 化 呈现 


y = iris.target 


n features = X.shape[1] 


e iris 高 一 个 dict 型 列 资 料 ， 我 们 可 以 用 以 下 指令 来 看 一 下 资料 的 内 容 。 


for key,value in iris.items() : 
CENE 
print (key,value. shape) 
except: 


print (key) 


显示 说 明 
(target names', (3L,)) +A 54$ £ E36 setosa, versicolor, virginica 
('data', (150L, 4L)) 有 150 笔 资料 ， 共 四 种 特征 
('target', (150L,)) i$1503€ FAS eA — 418 BBE 
DESCR 资料 之 描述 
feature_names 四 个 特征 代表 的 意义 


这 个 范例 哆 择 了 四 种 分 类 器 ， 存 入 一 个 dict 资 料 中 ， 分 别 局 : 


1. L1 logistic 
2. L2logistic (OvR) 
3. Linear SVC 


4. L2 logistic (Multinomial) 


Jt LogisticRegression #£A*AMSEFRKS BRITE RETTAR CR EL TARERE o 
C= 1.0 


# Create different classifiers. The logistic regression cannot do 
# multiclass out of the box. 
classifiers = {'L1 logistic': LogisticRegression(C-C, penalty='11'), 
'L2 logistic (OvR)': LogisticRegression(C-C, penalty='12'), 
"Linear SVC': SVC(kernel='linear', C=C, probability=True, 
random_state=0), 
'L2 logistic (Multinomial)': LogisticRegression( 
C=C, solver-'lbfgs', multi class-'multinomial' 


)} 


n_classifiers = len(classifiers) 


而 接 下 来 局 了 产生 一 个 包含 缀 大 部 份 可 能 的 测试 矩阵 ， 我 们 会 用 到 以 下 指令 。 


1. np.linspace( 起 始 ， 终 止 ， 数量) 目的 局 产生 等 间隔 之 数据 ， 例 如 print(np.linspace(1,3,3)) 的 结果 高 [ 1. 
2. 8.] ;而 print(np.linspace(1,3,5)) 的 结果 局 [ 1. 1.5 2. 2.5 3. ] 

2. np.meshgrid(xx,yy) 则 用 来 产生 网 格 状 座 标 。 

3. numpy.c ”高 numpy 特 殊 物 件 ， 能 协助 将 numpy 阵列 连接 起 来 ， 将 程式 简化 后 ， 我 们 用 以 下 划 例 展示 相关 函 式 用 法 。 


XX, yy = np.meshgrid(np.linspace(1,3,3), np.linspace(4,6,3).T) 
Xfull - np.c [xx.ravel(), yy.ravel()] 

print('xx- \n%s\n' 96 xx) 

print('yy- \n%s\n' 96 yy) 

print('xx.ravel()- %s\n' 96 xx.ravel()) 

print('Xfull- \n%s' % Xfull) 


HORAS c RITARA RXUN hk Y — F8 ZE USE BEAR TEX, 具备 有 9 笔 资料 ， 这 九 笔 资料 重 现 了 xx (3 种 数值 变化 ) 及 yy(3 
种 数值 变化 ) 的 所 有 排列 组 合 。 


XX- 
[il tts 25 Ss. 
[55 Bs Sl 


iie 2a ga 
yy= 

[[ 4. 4. 4.] 
[5- Ss 5] 
[ 6: 6. 6.]] 


XX ravelQ2 T 2-31 2 ele ala 2-3 


Xfull- 


[[ 1. 
[ 


ON FP WN FP WW WM 
o 00 a oo Oc RA A A 
SS Sear PS eS eS ean 


a es rn rnm r3 n3 


而 下 面 这 段 程式 码 的 主要 用 意 ， 在 产生 一 个 网 格 矩阵 ， 其 中 xx,yy 分 别 代 表 著 iris 资料 集 的 第 一 及 第 二 个 特征 。xx 是 3~9 之 
I] 4410045138 A CE? myy st 1-52 M 5100418 38 4 Fo A np.meshgrid(xx,yy) 及 np.c #4 BXfulldt 4E Re > 
10,000 笔 资料 包含 了 两 个 特征 的 所 有 排列 组 合 。 


plt.figure(figsize-(3 * 2, n classifiers * 2)) 
plt.subplots adjust(bottom-.2, top=.95) 


XX - np.linspace(3, 9, 100) 

yy = np.linspace(i1, 5, 100).T 

XX, yy - np.meshgrid(xx, yy) 

Xfull - np.c [xx.ravel(), yy.ravel()] 


(三 ) RDA R VU E RA EL 0 AE 
接 下 来 的 动作 


1. 用 过 圈 输 过 所 有 的 分 类 器 ， 闪 计算 显示 分 类 成 功率 

2. 将 xfull (10000x2468 RR ^ classifier.predict_proba() 得 到 probas (10000x34E >) » i$ #4) probas ERE 
是 10000 种 不 同 的 特征 排列 组 合 所 形成 的 数据 ， 被 分 类 到 三 种 iris 高 尾 花 的 可 能 性 。 

3. 利用 reshape((100,100)) 将 10000 笔 资料 排列 成 二 维和 矩 泣 ， 状 将 机 座 用 影像 的 方式 呈现 出 来 





丸 行 ， 则 可 以 将 下 列 和 这 行 的 井 号 移 除 


# 若 在 Ipython notebook (Jupyter) 





%matplotlib inline 





HRSA T PET HORA TRAH Bos S m dp RE 





fig = plt.figure(figsize=(12,12), dpi=300) 


for index, (name, classifier) in enumerate(classifiers.items()) 


分 类 成 功率 






F4 集 eae a 


绞 控 用 cross_validation 的 方式 才能 较 正确 评估 





classifier.fit(X, y) 
y pred - classifier.predict(X) 
classif rate - np.mean(y pred.ravel() -- y.ravel()) * 100 


print("classif rate for %s : %f " 96 (name, classif rate)) 


# View probabilities- 
probas - classifier.predict proba(Xfull) 
n classes = np.unique(y pred).size 
for k in range(n classes): 
plt.subplot(n classifiers, n classes, index * n classes + k + 1) 
plt.title("Class %d" 96 k) 
if k == 0: 
plt.ylabel(name) 
imshow handle = plt.imshow(probas[:, k].reshape((100, 100)), 
extent=(3, 9, 1, 5), origin-'lower') 
plt.xticks(()) 
plt.yticks(()) 
idx - (y pred -- k) 
if idx.any(): 
plt.scatter(X[idx, 0], X[idx, 1], marker='0', c='k') 


ax - plt.axes([0.15, 0.04, 0.7, 0.05]) 
plt.title("Probability") 


plt.colorbar(imshow handle, cax-ax, orientation-'horizontal!') 


plt.show() 


classif rate for L2 logistic (OvR) : 76.666667 

classif rate for L1 logistic : 79.333333 

classif rate for Linear SVC : 82.000000 

classif rate for L2 logistic (Multinomial) : 82.000000 


Class 0 Class 1 ass 


VR) 


logistic 


L2 





Class 0 Class 1 
Class 0 Class 1 Class 2 
Class 0 Class 1 
Probability 
= g 2v 
(四 ) 完 整 程式 码 


Python source code: plot_classification_probability.py 


http://scikit-learn.org/stable/ downloads/plot classification probability.py 


print( doc ) 


# Author: Alexandre Gramfort <alexandre.gramfort@inria.fr> 


# License: BSD 3 clause 


import matplotlib.pyplot as plt 


import numpy as np 


from sklearn.linear model import LogisticRegression 
from sklearn.svm import SVC 


from sklearn import datasets 


iris - datasets.load iris() 
X = iris.data[:, 0:2] # we only take the first two features for visualization 


y - iris.target 


n features - X.shape[1] 


# Create different classifiers. The logistic regression cannot do 
# multiclass out of the box. 
classifiers = {'L1 logistic': LogisticRegression(C-C, penalty='11i'), 
'L2 logistic (OvR)': LogisticRegression(C-C, penalty='12'), 
"Linear SVC': SVC(kernel='linear', C=C, probability=True, 
random_state=0), 
'L2 logistic (Multinomial)': LogisticRegression( 
C=C, solver-'lbfgs', multi class-'multinomial' 


)} 


n_classifiers = len(classifiers) 


plt.figure(figsize-(3 * 2, n_classifiers * 2)) 
plt.subplots adjust(bottom-.2, top=.95) 


XX 


yy 
XX, yy - np.meshgrid(xx, yy) 


np.linspace(3, 9, 100) 
np.linspace(1, 5, 100).T 


Xfull - np.c [xx.ravel(), yy.ravel()] 


for index, (name, classifier) in enumerate(classifiers.items()) 


classifier.fit(X, y) 


y pred - classifier.predict(X) 
classif rate = np.mean(y pred.ravel() == y.ravel()) * 100 
print("classif rate for %s : %f " 96 (name, classif rate)) 


# View probabilities- 
probas - classifier.predict proba(Xfull) 
n classes = np.unique(y pred).size 
for k in range(n classes): 
plt.subplot(n classifiers, n classes, index * n classes + k + 1) 
plt.title("Class %d" 96 k) 
if k == 0: 
plt.ylabel(name) 
imshow_handle = plt.imshow(probas[:, k].reshape((100, 100)), 
extent=(3, 9, 1, 5), origin-'lower') 
plt.xticks(()) 
plt.yticks(()) 
idx = (y_pred == k) 
if idx.any(): 


plt.scatter(X[idx, 0], X[idx, 1], marker='0', c='k') 
ax = plt.axes([0.15, 0.04, 0.7, 0.05]) 
plt.title("Probability") 


plt.colorbar(imshow handle, cax-ax, orientation-' horizontal!) 


plt.show() 


分 类 法 /范例 四 : Classifier comparison 


这 个 范例 的 主要 目的 


° ides SUR 


(~) A BALE HDS 


e 将 分 类 器 引入 之 后 存放 入 一 个 list X 
e 这 中 要 注意 sklearn.discriminant_analysis 必需 要 sklearn 0.17 以 上 才能 执行 


import numpy as np 

import matplotlib.pyplot as plt 

from matplotlib.colors import ListedColormap 

from sklearn.cross validation import train test split 

from sklearn.preprocessing import StandardScaler 

from sklearn.datasets import make moons, make circles, make classification 
from sklearn.neighbors import KNeighborsClassifier 

from sklearn.svm import SVC 

from sklearn.tree import DecisionTreeClassifier 

from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier 
from sklearn.naive bayes import GaussianNB 


from sklearn.discriminant analysis import LinearDiscriminantAnalysis 





from sklearn.discriminant analysis import QuadraticDiscriminantAnalysis 


h = .02 # step size in the mesh 
names = ["Nearest Neighbors", "Linear SVM", "RBF SVM", "Decision Tree", 
"Random Forest", "AdaBoost", "Naive Bayes", "Linear Discriminant Ana." 


"Quadratic Discriminant Ana."] 
classifiers = [ 
KNeighborsClassifier(3), 
SVC(kernel="linear", C=0.025), 
SVC(gamma=2, C-1), 
DecisionTreeClassifier(max depth-5), 
RandomForestClassifier(max depth-5, n estimators-10, max features-i), 
AdaBoostClassifier(), 
GaussianNB(), 
LinearDiscriminantAnalysis(), 


QuadraticDiscriminantAnalysis()] 


(=) AF nS pH 


e 利用 make classification 产生 分 类 资料 ， n features-2 表示 共有 两 个 特征 ，n_informative=2 代表 有 了 两 个 类 
别 

e 所 产生 之 X: 100 x 24€ > y: 100 元 素 之 向 量 ，y 的 数值 公有 0 或 是 1 用 来 代表 两 种 类 别 

e 利用 X += 2 * rng.uniform(size-X.shape) MAI È HMRI (Xy) HH RPS A linear separable 

e 最 后 利用 make moon() 及 make_circles() 产生 空间 中 月 亮 形状 及 圆 形 之 数据 分 做 和 后， 一 侨 存 入 datasets BB 


X, y = make classification(n features-2, n_redundant=0, n_informative=2, 
random state-i, n clusters per class-i) 

rng = np.random.RandomState(2) 

X += 2 * rng.uniform(size-X.shape) 


linearly separable - (X, y) 


datasets = [make moons(noise-0.3, random state-6), 
make circles(noise-z0.2, factor=0.5, random state-i), 


linearly separable 


] 


(三 ) 测 试 分 类 器 间作 图 


接 下 来 这 段 程式 码 有 两 个 for 过 圈 ， 外 过 圈 走 过 三 个 的 dataset， 内 过 圈 则 走 过 所 有 的 分 类 器 。 高 求 简要 说 明 ， 我 们 将 程式 硒 
简略 如 下 : 


1. QB: 资料 旬 图 。 首 先 香 出 资料 分 仿 ， 接 著 将 资料 伟 入 分 类 器 过 图 


for ds in datasets: 
X, y = ds 





X train, X test, y train, E = 





测 | zk 分 类 25 5. de 


| 网 格 来 大 范围 测试 





XX, yy = np.meshgrid(.......... 





ax.scatter(X train[:, 0], X train[:, 1], c-y train, cmap-cm bright) 


HS > Hlalpha=0. 67¢# 
ax.scatter(X test[:, 0], X test[:, 1], c-y test, cmap=cm_bright, alpha=0.6) 


D ETA m 
的 " 淡 " 一 些 





2. AMA: SRSA o MADPMELEE LE RDA PREM 
for name, clf in zip(names, classifiers): 
clf.fit(X train, y train) 


score - clf.score(X test, y test) 


# Plot the decision boundary. For that, we will assign a color to each 





# point in the mesh [x min, m max]x[y min, y max]. 
if hasattr(clf, "decision function"): 

Z = clf.decision function(np.c [xx.ravel(), yy.ravel()]) 
else: 


Z = clf.predict proba(np.c [xx.ravel(), yy.ravel()])[:, 1] 


# Put the result into a color plot 
Z = Z.reshape(xx.shape) 


ax.contourf(xx, yy, Z, cmap=cm, alpha=.8) 


局 了 显示 方便 ， 我 将 原始 码 的 内 圈 改 局 for name, clf in zip(names[0:4], classifiers[0:4]): 只 跑 过 前 四 个 
分 类 器 。 


an 


%matplotlib inline 


figure = plt.figure(figsize=(30,20), dpi=300) 

i=1 

# iterate over datasets 

for ds in datasets: 
# preprocess dataset, split into training and test part 
X, y = ds 
X = StandardScaler().fit transform(X) 


X train, X test, y train, y test - train test split(X, y, test size-.4) 


x min, x max = X[:, 0].min() - .5, X[:, 0].max() + .5 
y min, y max = X[:, i].min() - .5, X[:, 1].max() + .5 
XX, yy - np.meshgrid(np.arange(x min, x max, h), 


np.arange(y min, y max, h)) 


# just plot the dataset first 

cm = plt.cm.RdBu 

cm bright = ListedColormap(['#FFO000', '#0000FF']) 

ax = plt.subplot(len(datasets), (len(classifiers) + 1)//2, i) 

# Plot the training points 

ax.scatter(X train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright) 
# and testing points 

ax.scatter(X test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright, alpha=0.6) 
ax.set_xlim(xx.min(), xx.max()) 

ax.set_ylim(yy.min(), yy.max()) 

ax.set_xticks(()) 

ax.set_yticks(()) 


al eux al 


# iterate over classifiers 

for name, clf in zip(names[0:4], classifiers[0:4]): 
ax = plt.subplot(len(datasets), (len(classifiers) + 1)//2, i) 
clf.fit(X train, y train) 


Score = clf.score(X test, y test) 


# Plot the decision boundary. For that, we will assign a color to each 


# point in the mesh [x min, m max]x[y min, y max]. 





if hasattr(clf, "decision function"): 
Z = clf.decision function(np.c [xx.ravel(), yy.ravel()]) 
else: 


Z = clf.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1] 


# Put the result into a color plot 
Z = Z.reshape(xx.shape) 


ax.contourf(xx, yy, Z, cmap=cm, alpha=.8) 


# Plot also the training points 

ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright) 

# and testing points 

ax.scatter(X_test[:, 0], X test[:, 1], c=y_test, cmap=cm_bright, 
alpha=0.6) 


ax.set xlim(xx.min(), xx.max()) 


EX 4: Classifier Comparison 


ax.set ylim(yy.min(), yy.max()) 


ax.set xticks(()) 


ax.set yticks(()) 


ax.set title(name,fontsize-28) 


ax.text(xx.max() - .3, yy.min() + .3, ('%.2f' % score).1lstrip('0'), 


ab mes al 


size-30, horizontalalignment='right') 


figure.subplots adjust(left-.02, right=.98) 


plt.show() 
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Nearest Neighbors RBF SVM 
































(四 ) 原始 码 列表 


Python source code: plot classifier comparison.py 


http://scikit-learn.org/stable/auto examples/classification/plot classifier comparison.html 


print( doc ) 


# Code source: 
# 

# Modified for 
# License: BSD 


Gaél Varoquaux 
Andreas Müller 
documentation by Jaques Grobler 


3 clause 


import numpy as np 


import matplotlib.pyplot as plt 


from matplotlib.colors import ListedColormap 


from sklearn.cross validation import train test split 


from sklearn.preprocessing import StandardScaler 


from sklearn.datasets import make moons, make circles, make classification 


from sklearn.neighbors import KNeighborsClassifier 


from sklearn.svm import SVC 


Decision Tree 







Decision Tree 


Decision Tree 
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from sklearn.tree import DecisionTreeClassifier 

from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier 
from sklearn.naive bayes import GaussianNB 

from sklearn.discriminant analysis import LinearDiscriminantAnalysis 


from sklearn.discriminant analysis import QuadraticDiscriminantAnalysis 


h = .02 # step size in the mesh 
names = ["Nearest Neighbors", "Linear SVM", "RBF SVM", "Decision Tree", 
"Random Forest", "AdaBoost", "Naive Bayes", "Linear Discriminant Analysis", 


"Quadratic Discriminant Analysis"] 
classifiers = [ 
KNeighborsClassifier(3), 
SVC(kernel="linear", C=0.025), 
SVC(gamma=2, C-1), 
DecisionTreeClassifier(max depth-5), 
RandomForestClassifier(max depth-5, n estimators-10, max features-i), 
AdaBoostClassifier(), 
GaussianNB(), 
LinearDiscriminantAnalysis(), 


QuadraticDiscriminantAnalysis()] 


X, y = make classification(n features-2, n_redundant=0, n_informative=2, 
random state-i, n clusters per class-i) 

rng = np.random.RandomState(2) 

X += 2 * rng.uniform(size-X.shape) 


linearly separable - (X, y) 


datasets = [make moons(noise-0.3, random state-6), 
make circles(noise-z0.2, factor=0.5, random state-!), 


linearly separable 


] 


figure = plt.figure(figsize-(27, 9)) 

i=1 

# iterate over datasets 

for ds in datasets: 
# preprocess dataset, split into training and test part 
xX, y = ds 
X = StandardScaler().fit transform(X) 


X train, X test, y train, y test - train test split(X, y, test size-.4) 


x min, x max = X[:, 0].min() - .5, X[:, 0].max() + .5 
y min, y max = X[:, i].min() - .5, X[:, 1].max() + .5 
XX, yy - np.meshgrid(np.arange(x min, x max, h), 


np.arange(y min, y max, h)) 


# just plot the dataset first 

cm = plt.cm.RdBu 

cm bright = ListedColormap(['#FFO000', '#0000FF']) 

ax = plt.subplot(len(datasets), len(classifiers) + 1, i) 
4 Plot the training points 


ax.scatter(X train[:, 0], X train[:, 1], c-y train, cmap-cm bright) 


# and testing points 

ax.scatter(X test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright, alpha=0.6) 
ax.set_xlim(xx.min(), xx.max()) 

ax.set_ylim(yy.min(), yy.max()) 

ax.set_xticks(()) 

ax.set_yticks(()) 


ak eS al 


# iterate over classifiers 

for name, clf in zip(names, classifiers): 
ax = plt.subplot(len(datasets), len(classifiers) + 1, i) 
clf.fit(X train, y train) 


Score - clf.score(X test, y test) 


# Plot the decision boundary. For that, we will assign a color to each 


# point in the mesh [x min, m max]x[y min, y max]. 





if hasattr(clf, "decision function"): 

Z - clf.decision function(np.c [xx.ravel(), yy.ravel()]) 
else: 

Z = clf.predict proba(np.c [xx.ravel(), yy.ravel()])[:, 1] 


# Put the result into a color plot 
Z = Z.reshape(xx.shape) 


ax.contourf(xx, yy, Z, cmap=cm, alpha=.8) 


# Plot also the training points 

ax.scatter(X train[:, 0], X train[:, 1], c=y_train, cmap=cm_bright) 

# and testing points 

ax.scatter(X test[:, 0], X test[:, 1], c-y test, cmap-cm bright, 
alpha=0.6) 


ax.set_xlim(xx.min(), xx.max()) 

ax.set_ylim(yy.min(), yy.max()) 

ax.set_xticks(()) 

ax.set_yticks(()) 

ax.set_title(name) 

ax.text(xx.max() - .3, yy.min() + .3, ('%.2f' % score).1strip('0'), 
size=15, horizontalalignment='right' ) 


ab Aes al 


figure.subplots adjust(left-.02, right=.98) 
plt.show() 


分 类 法 /范例 五 : Linear and Quadratic Discriminant Analysis with 
confidence ellipsoid 


线性 判别 以 及 二 次 判别 的 比较 


http://scikit-learn.org/stable/auto examples/classification/plot Ida qda.html 


(—) #4 & function 
这 个 范例 引入 的 套件 ， 主 要 特点 在 : 


1. scipy.linalg :线性 代数 相关 函 式 ， 这 里 主要 使 用 到 linalg.eigh 特 币值 相关 问题 
2. matplotlib.colors : 用 来 处 理 给 图 时 的 色彩 分 信 

3. LinearDiscriminantAnalysis :线性 判别 演算 法 
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QuadraticDiscriminantAnalysis :二 次 判别 演算 法 


%matplotlib inline 

from scipy import linalg 

import numpy as np 

import matplotlib.pyplot as plt 

import matplotlib as mpl 

from matplotlib import colors 

from sklearn.discriminant analysis import LinearDiscriminantAnalysis 


from sklearn.discriminant analysis import QuadraticDiscriminantAnalysis 


接 下 来 是 设 定 一 个 线性 变化 的 colormap， LinearSegmentedColormap(name, segmentdata) 预 设 会 传 回 一 个 256 个 值 的 
数值 颜色 对 应 天保。 用 一 个 具备 有 三 个 项 目的 dict 变 数 segmentdata AZ ° X 'red': [(0, 1, 1), (1, 0.7, 
0.7)] 来 解释 ， 就 是 我 们 希望 数值 由 0 到 1 的 过 程 ， 红 色 通 道 将 由 1 线性 变化 至 0.7。 


cmap = colors.LinearSegmentedColormap( 
'red blue classes', 
Toreda poe sts alike (le Cara teh ily 
tgreemn = (979 Orm Cd rem 
"brueti oru OY y) 


plt.cm.register_cmap(cmap=cmap ) 


我 们 可 以 用 以 下 程式 码 来 观察 。 当 翰 入 数值 遍 np.arange(0,1.1,0.1) 也 就 是 0,0.1...,1.0 时 RGB 数值 的 变化 情形 。 


values = np.arange(9,1.1,0.1) 

cmap. values = mpl.cm.get cmap('red blue classes')(values) 
import pandas as pd 

pd.set option('precision',2) 
df-pd.DataFrame(np.hstack((values.reshape(1ii,1),cmap values))) 
df.columns - ['Value', 'R', 'G', 'B', 'Alpha'] 

print(df) 


Value 


o 0o -00 50N HP Oo 
© o 0-00 50 NP oO 
oO 0o00000000505n0 
-M-«40 000 0000 0 2X 
Moo ooo on 
© © O O O «Qo oo 0-0 
BBB BB BB BB BB 


© OO © © © © © © 
oo) 


EDO 000000 0 


H 
© 


接著 我 们 产生 两 组 资料 , 每 组 资料 有 600 笔 资料 ，2 个 特征 X: eoox2 以 及 2 个 类 别 y:600 (3130018/5, 3&0 * HT AI) 


1. dataset fixed cov() :2 个 类 别 的 特征 具备 有 相同 共 变 数 (covariance) 

2. dataset fixed cov() :2 个 类 别 的 特 微 具 人 备 有 不 同 之 共 变 数 差 县 落 在 X 资 料 的 产生 np.dot(np.random.randn(n, 
dim), C) $ np.dot(np.random.randn(n, dim), C.T) 的 不 同 。 np.dot(np.random.randn(n, dim), C) 会 
产生 aoox2 ŽE > HiRes CES eT Rw C HM RIE oH dataset fixed cov() 中 ， 前 后 300 笔 资料 产生 
ZPAF C RAE RIITAA RTA RA TA Sl EIER H8 (18 I5] 2 88 380) 85 CE Oh ee ee ERAZ SLT) 
BE EUN R2) Dp AUR,» RE BRR (KR) ^ DUG RII S] o Po PAK GDS RT A 
第 二 个 特征 ， 读 者 可 以 试 著 将 0.83 这 个 数字 减少 或 是 将 C.T AR C ， 看 看 最 后 结果 图 形 有 了 什么 改变 ? 


def dataset fixed cov(): 
'''Generate 2 Gaussians samples with the same covariance matrix''' 
n, dim = 300, 2 


np.random.seed(6) 


C = np.array([[0., -0.23], [0.83, .23]]) 
X - np.r [np.dot(np.random.randn(n, dim), C), 
np.dot(np.random.randn(n, dim), C) + np.array([i, 1])] # 利 用 + np.array([i, 1]) 
生 类 别 间 的 差 县 
y = np.hstack((np.zeros(n), np.ones(n))) s; €30018 2X 300181 hive X% 


return X, y 


def dataset cov(): 
'''Generate 2 Gaussians samples with different covariance matrices''' 
n, dim - 300, 2 


np.random.seed(6) 


C = np.array([[0., -1.], [2.5, .7]]) * 2. 

X = np.r_[np.dot(np.random.randn(n, dim), C), 
np.dot(np.random.randn(n, dim), C.T) + np.array([i, 4])] 

y = np.hstack((np.zeros(n), np.ones(n))) 


return X, y 


(=)4 BBA 


1. 找 出 True Positive X False Negative 之 辨认 点 
2， 以 红色 及 赣 色 分 别 表示 分 类 局 0 及 1 的 资料 点 ， 而 以 深 红 跟 深 赣 来 表示 误 判 资料 
3. 以 1da.predict proba() iH 423855 E 2 fs (HAS Sep) 


(局 了 方便 在 ipython notebook JL TRAT > T i d AUR 838 BER) 


def plot data(lda, X, y, y pred, fig index): 
splot - plt.subplot(2, 2, fig index) 
if fig index -- 1: 
plt.title('Linear Discriminant Analysis',fontsize-28) 
plt.ylabel('Data with fixed covariance',fontsize-28) 
elif fig index -- 2: 
plt.title('Quadratic Discriminant Analysis',fontsize-28) 
elif fig index -- 3: 


plt.ylabel('Data with varying covariances',fontsize-28) 





ROSÜE— : 找 出 True Positive False postive f 


tp = (y == y pred) # True Positive 

tp0, tpi = tp[y == 0], tp[y == 1] #tpO 代表 分 类 局 9 且 列 高 True Positive 之 资料 点 
X0, X1 = X[y == 9], X[y == 1] 

XO_tp, XO fp = XO[tp0], XO[~tpo] 

XA tp, X1_fp = xi[tpi], Xi[-tp1] 





"EI EEDCITT. 


4 class 0: dots 
plt.plot(XO tp[:, 0], XO tp[:, 1], 'o', color='red') 
plt.plot(XO fp[:, 0], XO fp[:, 1], '.', color='#990000') # dark red 


# class 1: dots 
plt.plot(X1 tp[:, 0], X1 tp[:, 1], 'o', color='blue') 
plt.plot(X4 fp[:, 0], X4 fp[:, 1], '.', color='#000099') # dark blue 





HEEL: ERAN 分 体 ( 请 
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# class 0 and 1 : areas 

nx, ny - 200, 100 

x min, x max - plt.xlim() 

y min, y max - plt.ylim() 

XX, yy - np.meshgrid(np.linspace(x min, x max, nx), 
np.linspace(y min, y max, ny)) 


Z = lda.predict proba(np.c [xx.ravel(), yy.ravel()]) 


Z = Z[:, 1].reshape(xx.shape) 
plt.pcolormesh(xx, yy, Z, cmap='red_blue_classes', 
norm-colors.Normalize(0., 1.)) 


plt.contour(xx, yy, Z, [0.5], linewidths=2., colors='k') 


# means 

plt.plot(lda.means_[0][0], lda.means_[0][1], 
'o', color='black', markersize=10) 

plt.plot(lda.means_[i][0], lda.means_[i][1], 


'o', color='black', markersize=10) 


return splot 


def plot ellipse(splot, mean, cov, color): 
V, w = linalg.eigh(cov) 
u = w[9] / linalg.norm(w[9]) 
angle = np.arctan(u[i] / u[9]) 
angle = 180 * angle / np.pi # convert to degrees 
# filled Gaussian at 2 standard deviation 
ell = mpl.patches.Ellipse(mean, 2 * v[0] ** 0.5, 2 * v[1] ** 0.5, 
180 + angle, color-color) 
ell.set clip box(splot.bbox) 
ell.set alpha(0.5) 
splot.add artist(ell) 
splot.set xticks(()) 
splot.set yticks(()) 
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def plot lda cov(lda, splot): 
plot ellipse(splot, lda.means [0], lda.covariance , 'red') 


plot ellipse(splot, lda.means [1], lda.covariance , 'blue') 


def plot qda cov(qda, splot): 
plot ellipse(splot, qda.means [9], qda.covariances [0], 'red') 


plot ellipse(splot, qda.means [1], qda.covariances [1], 'bilue') 





THHHEHHHUBHHHBBEHHBBBR BH FH BR B BH FR FREE HER HH HB HE FH HEB HH HH BH HEB HHTR HH HHTHH I 
figure = plt.figure(figsize-(30,20), dpi=300) 
for i, (X, y) in enumerate([dataset fixed cov(), dataset cov()]): 

4 Linear Discriminant Analysis 

lda = LinearDiscriminantAnalysis(solver="svd", store covariance-True) 

y pred = lda.fit(X, y).predict(X) 

splot = plot data(lda, X, y, y pred, fig index-2 * i + 1) 

plot lda cov(lda, splot) 

plt.axis('tight') 


# Quadratic Discriminant Analysis 

qda = QuadraticDiscriminantAnalysis(store_covariances=True) 

y pred = qda.fit(X, y).predict(X) 

splot = plot data(qda, X, y, y pred, fig index-2 * i + 2) 

plot qda cov(qda, splot) 

plt.axis('tight') 
plt.suptitle('Linear Discriminant Analysis vs Quadratic Discriminant Analysis',fontsize-28) 
plt.show() 


EX 5: Linear and Quadratic Discriminant Analysis with confidence ellipsoid 


Data with fixed covariance 


Data with varying covariances 





Linear Discriminant Analysis vs Quadratic Discriminant Analysis 


Linear Discriminant Analysis Quadratic Discriminant Analysis 












Python source code: plot Ida qda.py 


http://scikit-learn.org/stable/ downloads/plot Ida qda.py 


print( doc ) 


from scipy import linalg 
import numpy as np 

import matplotlib.pyplot as plt 
import matplotlib as mpl 

from matplotlib import colors 


from sklearn.discriminant analysis import LinearDiscriminantAnalysis 


from sklearn.discriminant analysis import QuadraticDiscriminantAnalysis 


EERE TERETE EEE ETE HE EE PETE HEE TB PETE BF EEE EEE TEE ER PEE HEE TB TE BH HHHHRHE HE HERE HH HE E RH HE HH 
# colormap 
cmap = colors.LinearSegmentedColormap( 
'red blue classes', 
ed 
green [(O, O.7, 0:7), (1, 0.7, 29-72); 
‘prue UN i COE 0 p (Cale ale alia) 
plt.cm.register_cmap(cmap=cmap ) 


TERE TERETE PETE EE ETE TEES PETE HE ETB PETE BF EEE EAE PETE EE PEE HEE TBE BPE EE PTE PE EE HH HE HER EH HH HH EHE Hn 
# generate datasets 
def dataset_fixed_cov(): 


37 


'''Generate 2 Gaussians samples with the same covariance matrix''' 
n, dim - 300, 2 


np.random.seed(6) 


C = np.array([[0., -9.23], [0.83, .23]]) 

X - np.r [np.dot(np.random.randn(n, dim), C), 
np.dot(np.random.randn(n, dim), C) + np.array([i, 1])] 

y = np.hstack((np.zeros(n), np.ones(n))) 


return X, y 


def dataset cov(): 
'''Generate 2 Gaussians samples with different covariance matrices''' 
n, dim - 300, 2 
np.random.seed(6) 


C = np.array([[0., -1.], [2.5, .7]]) * 2. 

X = np.r_[np.dot(np.random.randn(n, dim), C), 
np.dot(np.random.randn(n, dim), C.T) + np.array([i, 4])] 

y = np.hstack((np.zeros(n), np.ones(n))) 


return X, y 


BHHEBSERHEHHERHHHRHHEBSERHHEHERHHHEHHEHSHEHSEHERHHHEHHHREHEHSHSHEBEHERRHHHREHEHRHSE 
# plot functions 
def plot data(lda, X, y, y pred, fig index): 
splot - plt.subplot(2, 2, fig index) 
if fig index -- 1: 
plt.title('Linear Discriminant Analysis') 
plt.ylabel('Data with fixed covariance') 
elif fig index -- 2: 
plt.title('Quadratic Discriminant Analysis') 
elif fig index -- 3: 


plt.ylabel('Data with varying covariances') 


tp = (y == y pred) # True Positive 
tpo, tpi = tp[y == 0], tp[y == 1] 
XOXE ==" Olly XY ==" 44) 
X@_tp, XO fp = X@[tp0], XO[-tpo0] 
X1_tp, X1_fp = X1[tp1], Xi[-tp1] 


# class 0: dots 
plt.plot(XO tp[:, 0], XO tp[:, 1], 'o', color='red') 
plt.plot(XO fp[:, 0], XO fp[:, 1], '.', color='#990000') # dark red 


# class 1: dots 
plt.plot(X1 tp[:, 0], X1 tp[:, 1], 'o', color='blue') 
plt.plot(X1 fp[:, 0], X1 fp[:, 1], '.', color='#000099') # dark blue 


# class © and 1 : areas 

nx, ny - 200, 100 

x min, x max - plt.xlim() 

y min, y max - plt.ylim() 

XX, yy - np.meshgrid(np.linspace(x min, x max, nx), 


np.linspace(y min, y max, ny)) 


Z 


lda.predict proba(np.c [xx.ravel(), yy.ravel()]) 

Z = 2Z[:, 1].reshape(xx.shape) 

plt.pcolormesh(xx, yy, Z, cmap='red_blue_classes', 
norm-colors.Normalize(0., 1.)) 

plt.contour(xx, yy, Z, [0.5], linewidths=2., colors='k') 


# means 

plt.plot(lda.means_[0][9], lda.means_[0][1], 
'o', color='black', markersize=10) 

plt.plot(lda.means [1][90], lda.means_[1i][1], 
'o', color='black', markersize=10) 


return splot 


def plot_ellipse(splot, mean, cov, color): 
v, w = linalg.eigh(cov) 
u = w[0] / linalg.norm(w[9]) 
angle = np.arctan(u[i] / u[9]) 
angle = 180 * angle / np.pi # convert to degrees 
# filled Gaussian at 2 standard deviation 
ell = mpl.patches.Ellipse(mean, 2 * v[0] ** 0.5, 2 * v[1] ** 0.5, 
180 + angle, color=color) 
ell.set clip box(splot.bbox) 
ell.set alpha(0.5) 
splot.add artist(ell) 
splot.set xticks(()) 
splot.set yticks(()) 


def plot lda cov(lda, splot): 
plot ellipse(splot, lda.means [0], lda.covariance , 'red') 


plot ellipse(splot, lda.means [1], lda.covariance , 'blue') 


def plot qda cov(qda, splot): 
plot ellipse(splot, qda.means [9], qda.covariances [0], 'red') 


plot ellipse(splot, qda.means [1], qda.covariances [1], ‘blue') 


THHHHHHHHHHHHBHHHHHHHHHHHBHHHHBHHHHHHHHEHBHHHHBBHHHHHHHHHHHBHBHHBHHHHHHHHHHHHHBHHHHHHNSE 
for i, (X, y) in enumerate([dataset fixed cov(), dataset cov()]): 

4 Linear Discriminant Analysis 

lda = LinearDiscriminantAnalysis(solver="svd", store covariance-True) 

y pred = lda.fit(X, y).predict(X) 

splot = plot data(lda, X, y, y pred, fig index-2 * i + 1) 

plot lda cov(lda, splot) 

plt.axis('tight') 


# Quadratic Discriminant Analysis 

qda = QuadraticDiscriminantAnalysis(store_covariances=True) 
y pred = qda.fit(X, y).predict(X) 

splot - plot data(qda, X, y, y pred, fig index-2 * i * 2) 
plot qda cov(qda, splot) 


EX 5: Linear and Quadratic Discriminant Analysis with confidence ellipsoid 


plt.axis('tight') 
plt.suptitle('Linear Discriminant Analysis vs Quadratic Discriminant Analysis') 
plt.show() 
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特征 选择 Feature Selection 


Feature Selection 


AE GEAR 特征 选择 主要 是 以 统计 特征 与 目标 的 相关 性 、 或 以 于 代 排 序 特征 影响 目标 影响 力 的 方式 来 逐渐 排除 与 目标 较 不 相关 
的 特征 ， 留 下 和 与 目标 最 相近 的 特征 ， 使 判断 准确 率 能 金 提 升 。 


范例 一 : Pipeline Anova SVM 


以 anova filter 作 高 玩 择 特征 的 依据 ， 兹 示范 以 传 速 (Pipeline) 的 方式 来 执行 特征 选择 的 训练 。 


N 





范例 二 :Recursive feature elimination 


以 重复 排除 最 不 具有 特征 影响 力 的 特征 ， 来 减少 训 张 的 特征 数目 ， 直 到 指定 的 特征 数目 。 





n features to select ranking _ 


X 
Y 


xX’ 


范例 三 :Recursive feature elimination with cross-validation 
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特征 选择 Feature Selection 


除了 重复 排除 不 具 影响 力 的 特征 外 ， 半 每 次 排除 特征 后 计算 准确 度 ， 以 准确 度 最 高 的 特征 数目 作 高 选 定 训 张 特征 数目 的 依 
据 。 













ranking . 


X — 
Y — grid scores - 


J 


X — y 


范例 四 :Feature selection using SelectFromModel and LassoCV 


AR $40 1448 M SelectFromModel & A RAE EH HA > PARRA BAN PU > AVF B RAR Ao EAL 
4% Hl LassoCV1t & 3E 4€ 1) iy N © 


threshold => 


A e. transform(X) 
Y => 


J 


X — y 


范例 五 :Test with permutations the significance of a classification score 
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特征 选择 Feature Selection 


本 范例 示范 当 目 标 关 型 的 特征， 状 乱 数值 的 大 小 区 分 时 ， 以 置换 分 类 目标 的 方式 来 找到 最 高 准确 率 的 特征 挑选 结果 。 以 避免 
因 启 特征 目标 分 类 转换 局 用 以 区 分 不 同类 型 时 造成 的 误 判 。 


score 


permute 


permutation_scores 


pvalue 





范例 六 :Univariate Feature Selection 


本 和 范例 示范 用 SelectPercentile 以 统计 的 方式 来 做 特征 的 选择 ， 益 比 指 定 的 判断 函 式 来 挑 玩 特征 。 本 和 范例 的 输入 涵 式 局 
ANOVA > 3E Ast 3-83 F-value R c A DUE AF BC 85 P] BR. o 
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4¥ 3S 4E/ 421 —: Pipeline Anova SVM 


http://scikit-learn.org/stable/auto_examples/feature_selection/feature_selection_pipeline.html 
HEARS EY SP RHETT PL 80 48 AL > ARABIA BUT ANOVAI 3:34 BC > 3E AR M C-SVM AR Gt LAF HE ERTAN] o 


1. 使 用 make classification EZ BEC 

2. 使 用 SelectkBest 3E JH MME ABA > VA d E EDU BAEK 
3. 使 用 SVC 设 定 支持 向 量 机 局 分 类 计算 以 及 其 核 函 数 

4. 用 make pipeline 44i# SelectKBest 物 件 #2 SVC 物件 

5. 用 fit alk 3$ EVA predict 来 做 预测 


(一 ) 建 立 模 握 资料 


在 哆 择 特 微 之 前 需要 有 整理 好 的 特 币 寅 目标 资料 。 在 此 范例 中 ， 将 以 make classification 功能 建立 特征 与 目标 。 该 功能 
可 以 依照 使 用 者 想 模 所 的 情况 ， 建 立 含 有 不 同 特性 的 模 气 资料 ， 像 是 总 特征 数目 ， 其 中 胸 项 特征 含有 目标 资讯 性 、 目 标 聚 
AERE BRA ARRA: 


# import some data to play with 
X, y = samples generator.make classification( 
n features-20, n informative-3, n redundant-6, n classes-4, 


n clusters per class-2) 


在 本 范例 ， 我 们 将 X 建 立 局 一 个 有 20 个 特 微 的 资料 ， 其 中 有 3 种 特 微 具 有 日 标 资讯 性 ，0 个 特 微 是 由 目标 资讯 性 特 微 所 产生 的 
线性 组 合 ， 目 标 分 局 4 类 ， 而 每 个 分 类 的 目标 分 布局 2 个 群集 。 
(二 ) 选 择 最 好 的 特征 


在 机 器 学 习 的 训 张 之 前 ， 可 以 藉 由 统计 或 指定 评分 函数 ， 算 出 特征 与 目标 之 问 的 关 傈 ， 站 挑 导 出 最 具有 关 傈 的 特征 作 高 训 张 

的 素材 ， 而 不 直接 使 用 所 有 特征 做 高 训 张 的 素材 。 

其 中 一 种 方法 是 统计 特征 与 目标 之 间 的 F-score 做 高 评估 分 数 ， 再 挑 慰 F-score 最 高 的 并 个 特征 作 高 训 屿 素材。 我 们 可 以 用 
SelectKBest() 来 建立 该 功能 的 运算 物件 。 


# ANOVA SVM-C 


# 1) anova filter, take 3 best ranked features 


anova filter = SelectKBest(f regression, k=3) 


SelectKBest() 的 第 一 项 参数 须 给 定 评分 函数 ， 在 本 范例 是 设 定局 f regression 。 第 二 项 参数 代表 选择 评估 分 数 最 高 
的 3 个 特征 做 高 训练 的 素材 。 建 立 完 成 后 ， 即 可 用 物件 内 的 方法 .fit_transform(X,y) 来 提取 被 选 出 来 的 特征 。 


(三 ) 以 何 列 方式 来 设 定 支持 向 量 机 分 类 法 运算 物件 


Scikit-lenarn 的 支持 向 量 机 分 类 涵 式 库 提 供 使 用 简单 易 懂 的 指令 ， 只 要 用 SVC() 建立 运算 物件 后 ， 便 可 以 用 运算 物件 内 的 
方法 .fit() 与 .predict() 来 做 训练 与 预测 。 


本 范例 在 建立 运算 物件 后 ， 不 直接 用 SelectKBest().fit transform() 提出 训练 素材 。 而 是 以 make pipeline() + 
伐 先 前 设 定 好 的 十 个 运算 物件 。 再 执行 .fit() 与 .predict() 来 完成 训练 与 预测 的 动作 。 


# 2) svm 


clf = svm.SVC(kernel-'linear') 


anova svm = make pipeline(anova filter, clf) 
anova svm.fit(X, y) 


anova svm.predict(X) 


d AT AS AER DH RTM BREE AMARTH BA THOR Al o ANREP PRBS EH 
特征 素材 数目 从 特征 资料 中 挑 出 特征 素材 。 预 测 时 ， 也 会 从 预测 资料 中 挑 出 对 应 特征 素材 的 资料 来 做 预测 判断 。 


若是 将 SelectkBest() $2 SVC() 物件 分 开 来 执行 ， 当 svc() 物件 在 做 学 习 时 给 定 的 特征 即 高 被 玩 出 来 的 特征 素材 数 
目 。 那 预测 的 时 候 也 必须 从 预测 资料 中 ， 挑 出 被 SelectKBest() 有 选 出 来 的 特征 来 给 SVC() 做 预测 。 


(四 ) 原 始 硒 
Python source code: feature selection pipeline.py 


from sklearn import svm 
from sklearn.datasets import samples generator 
from sklearn.feature selection import SelectKBest, f regression 


from sklearn.pipeline import make pipeline 


# import some data to play with 

X, y = samples generator.make classification( 
n features-20, n informative-3, n redundant-6, n classes-4, 
n clusters per class-2) 


* ANOVA SVM-C 

# 1) anova filter, take 3 best ranked features 
anova filter - SelectKBest(f regression, k-3) 
# 2) svm 


clf = svm.SVC(kernel-'linear') 


anova svm - make pipeline(anova filter, clf) 
anova svm.fit(X, y) 


anova svm.predict(X) 


(五 ) 函 式 用 法 


make classification() 的 参数 


sklearn.datasets.make classification( n_samples=100, 
n_features=20, 
n_informative=2, 
n_redundant=2, 
n_repeated=0, 
n_classes=2, 
n_clusters_per_class=2, 
weights=None, 
flip_y=0.01, 
class_sep=1.0, 
hypercube=True, 
shift=0.0, 
scale=1.0, 
shuffle=True, 


random_state=None) 


y 


数 : 


e n samples : 

e n fratures : 总 特征 数目 

e n informative: 有 意义 的 特征 数目 

e n redundant : 产生 有 意义 特征 的 随机 线性 组 合 
e n repeated 

e n classes: 42-28 É RHA 

e n clusters per class: 一 个 类 群 有 北 个 群 组 分 布 
e weights : 

e flip y: 

e Class sep: 

e hypercube: 

e shift: 

e scale: 

e shuffle : 

e random state : 


«md: 


e X: IFB EHE 
e Y :对 应 目标 资料 


类 似 的 功能 : 
make blobs 


make gaussian quantiles 


SelectKBest() 的 参数 


SelectKBest 的 使 用 : 


e EEG RR ARA A 1 1) 
e AR SA: 测试 X 与 Y 之 问 关 傈 ， 须 提供 F score 和 与 p-value 
e 特征 个 数 : 最 好 的 特征 个 数 


f regression 的 使 用 : 


e f regression(X,y) 
e 输入 X 与 y 
e 输出 F score 与 p-value 


Ae 2% FE / $05] —: Recursive feature elimination 


http://scikit-learn.org/stable/auto_examples/feature_selection/plot_rfe_digits.html 


AGO) ELA MY AGRE RRS BH ZAM o ELRFERERGAMRREA DAIRY ZAP Rit 
EFA BAG LBA o 


1. VA load digits 取得 内 建 的 数字 辨识 资料 
2. 以 RFE 墨 代 方 式 删 去 相对 不 具有 目标 影响 力 的 特征 . 


(一 ) 产 生 内 建 的 数字 办 识 资 料 


# Load the digits dataset 
digits = load digits() 
X = digits.images.reshape((len(digits.images), -1)) 


y - digits.target 


RRS RA AM LBS FT BRST BR HEU TTOT EUR o TRSEAO-9 TTE SCIRE hn class RARR 
多 少 种 数字 类 型 。 


输出 的 资料 包含 


‘data’, 特征 资料 (1797*64) 

'images', 影像 资料 (1797*8*8) 

‘target’, 资料 标签 (1797) 

target names', 选取 出 的 标 敏 列表 (与 n_class 给 定 的 长 度 一 样 ) 
‘DESCR’, 此 资料 库 的 描述 


Own 一 


可 以 参考 Classification 的 Ex1 


(二 ) 以 法 代 方式 计算 模型 


RFE 以 排除 最 不 具 目 标 影响 力 的 特征 ， 做 特征 的 影响 力 排序 。 兹 且 将 训练 用 的 特征 挑 玩 至 n. features to select 所 给 
定 的 特征 数 。 因 高 要 看 每 一 个 特征 的 影响 力 排序 ， 所 以 我 们 将 n. features to select 设 定局 1， 一 般 会 根据 你 所 知道 的 
具有 影响 力 特 征 数 目 来 设 定 该 参数 。 而 step 代表 每 次 删除 较 不 具 影 响 力 的 特 微 数目 ， 因 馈 本 范例 要 疯 察 每 个 特 微 的 影响 力 
排序 ， 所 以 也 是 设 定 高 1。 若 在 实际 应 用 时 ， 特 征 的 数目 较 大 ， 可 以 考虑 将 step 的 参数 设 高 一 点 。 


# Create the RFE object and rank each pixel 

svc = SVC(kernel="linear", C=1) 

rfe = RFE(estimator=svc, n_features_to_select=1, step=1) 
rfe.fit(X, y) 


ranking = rfe.ranking_.reshape(digits.images[0].shape) 


可 以 用 方法 ranking | 来 看 输入 的 特征 权重 关 傈 。 而 方法 estimator ”可 以 取得 训练 好 的 分 类 机 状态 。 比 较 特 别 的 是 当 我 
们 核 函 数 是 以 线性 来 做 分 类 时 ， estimator. 下 的 方法 coef MARITA SEM o E SEAEIEAS A OA 

局 n features to select $t JH 592-2828 5] a PESE > Ede RRA E EL FY DHA > 36 3E E VAL ELE BORD FB MAR > 
BEE ATS AS 195 4 SECAE IE ^. EP 4576 162 IRURE; ET PLE A m Ro da UAE RATES LE BE Yh o 








(三 ) 雷 出 每 个 像素 所 对 应 的 权重 顺序 


取得 每 个 像素 位 置 对 於 判 断 数 字 的 权重 顺序 后 ， 我 们 把 权重 顺序 依照 颜色 部 在 对 应 的 位 置 ， 数 值 念 大 代表 该 像素 是 较 不 重要 
之 特征 。 由 结果 来 看 ， 不 重要 之 特征 多 半 位 於 影像 之 外 围 部 份 。 而 所 有 的 训 张 影像 中 ， 外 转 像 素 多 半 遍 空白 ， 因 此 较 不 重 
要 。 





Ex 2: Recursive Feature Elimination 


# Plot pixel ranking 
plt.matshow(ranking, cmap-plt.cm.Blues) 
plt.colorbar() 

plt.title("Ranking of pixels with RFE") 
plt.show() 
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Ranking of pixels with RFE, 
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(四 ) 原 始 码 


Python source code: plot rfe digits.py 
print( doc ) 


from sklearn.svm import SVC 

from sklearn.datasets import load digits 
from sklearn.feature selection import RFE 
import matplotlib.pyplot as plt 


# Load the digits dataset 

digits - load digits() 

X = digits.images.reshape((len(digits.images), -1)) 
y = digits.target 


4 Create the RFE object and rank each pixel 
SVC(kernel-"linear", C=1) 


SVC 
rfe = RFE(estimator-svc, n features to select-i, step=1) 
rfe.fit(X, y) 

ranking = rfe.ranking .reshape(digits.images[0].shape) 


4 Plot pixel ranking 
plt.matshow(ranking, cmap-plt.cm.Blues) 
plt.colorbar() 

plt.title("Ranking of pixels with RFE") 
plt.show() 
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AF 2% FE/$0] =: Recursive feature elimination with cross-validation 


http://scikit-learn.org/stable/auto_examples/feature_selection/plot_rfe_with_cross_validation.html 


REFCV KEREF % —18 X L 163 85 2- 3k (gridscores) ^ RRIF 2 y dp OK RE o (ZREFCV A IE REF LM REE £o 
征 ， 而 是 会 依照 交叉 比 对 的 分 数 而 自动 选择 训练 的 特征 数 。 


本 范例 示范 RFE 的 进 阶 版 ， 当 我 们 在 使 用 RFE 指令 时 ， 需 要 输入 训练 特 微 数目 ， 让 训练 机 能 排除 到 其 他 较 不 具有 影 稀 力 的 
特征 ， 也 就 是 要 有 和 预期 的 训 张 特征 数目 。 在 RFECV 指令 提供 了 使 用 交叉 验证 来 选择 有 最 好 准确 率 的 训练 特征 数目 。 而 交叉 

验证 也 可 以 帮助 我 们 避免 训 张 时 造成 过 度 训 练 (overfitting) 的 现象 ， 也 就 是 当 我 们 从 某 一 组 资料 中 挑 出 一 笔 训 张 资料 ， 能 金 对 
剩 下 的 测试 资料 预测 出 准确 度 最 好 的 分 类 ， 逢 发 现 这 个 分 类 机 状态 扰 法 准确 的 状 识 新 进 资料 的 结果 ， 因 高 这 个 最 佳 状态 只 庆 

用 在 特定 的 组 合 情 况 。 因 此 使 用 RFECV 和 后 ， 我 们 可 以 从 结果 看 出 ， 使 用 多 少 特征 做 分 类 判断 可 以 得 到 的 准确 率 高 低 。 


1. ARX AGREE 
2. 以 交叉 验证 来 取得 影响 力 特 征 


(一 ) 建 立 模 报 资 料 


# Build a classification task using 3 informative features 
X, y = make classification(n samples-1060, n features-25, n_informative=3, 
n redundant-2, n repeated-0, n_classes=8, 


n clusters per class-i, random state=0) 


说 明 可 以 参考 EX1， 执 行 过 此 函数 和 后， 我 们 可 以 得 到 具有 25 个 特征 且 有 1000 样 本 的 资料 ， 其 中 具有 目标 影响 力 的 特征 有 三 
个 ， 有 十 个 特征 是 由 具有 资讯 影响 力 的 特征 线性 组 合 出 来 的 ， 而 目标 共有 八 个 分 类 类 别 。 
(二 ) 以 曼 代 排序 特征 影响 力 ， 闪 以 交叉 验证 来 选 出 具有 实际 影响 力 的 特征 


在 使 用 RFECV 指令 前 ， 需 要 建立 支持 向 量 机 物件 ， 以 及 交 又 验证 的 形式 。 本 范例 仍 使 用 SVC 以 及 线性 核子 数 来 作 高 主要 
的 分 类 机 。 

在 交 又 验证 的 部 分 ， 我 们 使 用 StratifiedKFold 指令 来 做 K 堆 黑 (Fold) 的 交叉 验证 。 也 就 是 将 资料 分 高 K 堆 ， 一 扒 作 高 预测 
用 ， 剩 下 的 (K-1) 堆 则 用 来 训 张 ， 经 过 计算 和 后， 再 以 另外 一 堆 作 遍 预测， 重复 K 次 。 


而 scoring 参数 则 是 依照 分 类 资料 的 形式 ， 葵 入 对 应 的 评分 方式 。 以 本 例子 高 超过 雨 类 型 的 分 类 ， 因 此 使 用 accuracy' 来 对 


多 重 分 类 的 评分 方式 。 详 细 可 参考 scoring 


# Create the RFE object and compute a cross-validated score. 

svc = SVC(kernel="linear") 

# The "accuracy" scoring is proportional to the number of correct 

# classifications 

rfecv = RFECV(estimator=svc, step-i, cv-StratifiedKFold(y, 2), 
scoring-'accuracy') 

rfecv.fit(X, y) 


print("Optimal number of features : %d" 96 rfecv.n features ) 


VARFECV 2k x 455 2j eA 4r > BP AT A A Bea aR 6g $E o HART unfeaturesttA2 A A Mod BUE ROR RR BH o SET YU 
gridscores 看 出 特征 的 多 赛 如 何 影响 准确 举 。 JO SEE RARER LRH A> AMM RURLRREESMAMA HD 
能 介绍 如 下 。 


(三 ) 租 出 具有 影响 力 特 币 对 应 准确 率 的 


Ex 3: Recursive Feature Elimination with Cross-Validation 


下 图 的 曲线 表示 选择 多 少 个 特征 来 做 训 综 ， 会 得 到 多 少 的 准确 率 。 
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T XU $1 3E JE — E RUR BT AGG > 3E LIRE AY EE AE 2) 1£81.896 o HIE DARE TE Hn_informative=3 2 48 31 JE 85 © 


(四 ) 原始 码 出 处 


Python source code: plot_rfe_digits.py 


C 


print( doc ) 


import matplotlib.pyplot as plt 

from sklearn.svm import SVC 

from sklearn.cross validation import StratifiedKFold 
from sklearn.feature selection import RFECV 


from sklearn.datasets import make classification 


# Build a classification task using 3 informative features 
X, y = make classification(n samples-1000, n features-25, n_informative=3, 
n redundant-2, n repeated-0, n_classes=8, 


n clusters per class-i, random state=0) 


# Create the RFE object and compute a cross-validated score. 

svc = SVC(kernel-z"linear") 

# The "accuracy" scoring is proportional to the number of correct 

# classifications 

rfecv = RFECV(estimator=svc, step-i, cv-StratifiedKFold(y, 2), 
scoring-'accuracy') 

rfecv.fit(X, y) 


print("Optimal number of features : %d" 96 rfecv.n features ) 


# Plot number of features VS. cross-validation scores 

plt.figure() 

plt.xlabel("Number of features selected") 

plt.ylabel("Cross validation score (nb of correct classifications)") 
plt.plot(range(i, len(rfecv.grid scores ) + 1), rfecv.grid scores ) 
plt.show() 


本 章 介 绍 到 部 式 用 法 
RFECV() 的 参数 


class sklearn.feature selection.RFECV(estimator, step=1, cv=None, scoring=None, estimator param 


s=None, verbose=0) [source] 


参数 


e estimator 

e Step 

e CV: 若 扰 输入 ， 预 设 高 3-fold 的 交叉 验证 。 输 入 整数 |j， 则 做 i-fold 交 又 验证 。 若 扁 物 件 ， 则 以 该 物件 做 高 交叉 验证 产生 器 
e Scoring 

e estimator params 

e verbose 


输出 
n features : 预测 有 影响 力 的 特征 的 总 数目 
support : 有 影响 力 的 特征 遮 墨 ， 可 以 用 来 挑 出 哪些 特征 


ranking : 各 特征 的 影响 力 程度 
gridscores: 从 最 有 影响 力 的 特征 开始 加 入 ， 计 算 使 用 多 少 个 特征 对 应 得 到 的 准确 率 。 


Ex 3: Recursive Feature Elimination with Cross-Validation 


e estimator - 
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特征 选择 / 气 例 四 : Feature selection using SelectFromModel and 
LassoCV 


http://scikit-learn.org/stable/auto examples/feature selection/plot select from model boston.html 





此 范例 是 示范 以 LassoCV RAR E > Lassozt — 1$ JF] RAH HRA RR o ERELT ERRAN” ABE 
此 演算 过 程 中 会 以 较 少 数 的 特征 来 找 最 佳 解 ， 基 於 参 数 有 相依 性 的 情况 下 ， 使 变数 的 数目 有 效 的 缩减 。 因 此 ，Lasso 法 以 及 
它 的 变形 式 可 算是 压缩 参数 天 你 基本 方法 。 在 菜 些 情况 下 ， 此 方法 可 以 准确 的 值 测 非 零 权 重 的 值 。 


Lasso 最 佳 化 的 目标 函数 : 


1. 以 LassoCV 法 来 计算 目标 资讯 性 特征 数目 较 少 的 资料 
2. 用 SelectFromModel 设 定 特征 重要 性 的 门槛 值 来 选择 特征 
3. 提高 SelectFromModel 的 .threshold 使 目标 资讯 性 特征 数 逼 近 预 期 的 数目 





(一 ) 取 得 波士顿 房产 资料 


from sklearn.datasets import load boston 
from sklearn.feature selection import SelectFromModel 


from sklearn.linear model import LassoCV 


4 Load the boston dataset. 
boston - load boston() 
X, y = boston['data'], boston['target'] 


(—)& Fl LassoCV Zi fe A 85 3€ EL 34 Ey 89 4p 


1 由於 资 料 的 类 型 高 连续 数字 ， 玩 用 LassoCV 来 做 最 具有 代表 性 的 特征 选取。 

2.， 当 设 定好 门槛 值 ， 闪 做 训 张 后， 可 以 用 transform(X) 取 得 计算 过 后， 被 认 遍 是 具有 影响 力 的 特征 以 及 对 应 的 样本 ， 可 以 
由 其 列 的 数目 知道 钨 影响 力 特征 有 北 个 。 

3. 和 后 面 使 用 了 增加 门 权 值 来 达到 限制 最 后 特征 数目 的 

4. 使 用 门槛 值 来 决定 后 来 选取 的 参数 ， 其 说 明 在 下 一 个 标题 。 

5 需要 用 和 后 设 转 换 


(三 ) 设 定 选 取 人 参数 的 门槛 值 
while n features > 2: 
sfm.threshold += 0.1 


X transform - sfm.transform(X) 


n features - X transform.shape[1] 


(四 ) 原 始 码 之 出 处 


Python source code: plot select from model boston.py 








# Author: Manoj Kumar <mks542@nyu.edu> 


# License: BSD 3 clause 


print( doc ) 


import matplotlib.pyplot as plt 


import numpy as np 


from sklearn.datasets import load boston 
from sklearn.feature selection import SelectFromModel 


from sklearn.linear model import LassoCV 


# Load the boston dataset. 
boston - load boston() 
X, y = boston['data'], boston['target'] 


# We use the base estimator LassoCV since the L1 norm promotes sparsity of features. 
clf - LassoCV() 


# Set a minimum threshold of 0.25 

sfm = SelectFromModel(clf, threshold=0. 25) 
sfm.fit(X, y) 

n features = sfm.transform(X).shape[1] 


# Reset the threshold till the number of features equals two. 
# Note that the attribute can be set directly instead of repeatedly 
# fitting the metatransformer. 
while n features » 2: 
sfm.threshold += 0.1 
X transform = sfm.transform(X) 


n features = X transform.shape[1] 


# Plot the selected two features from X. 
plt.title( 
"Features selected from Boston using SelectFromModel with " 
"threshold 9*0.3f." 96 sfm.threshold) 
featurei = X transform[:, 0] 
feature2 - X transform[:, 1] 
plt.plot(featurei, feature2, 'r.') 
plt.xlabel("Feature number 1") 
plt.ylabel("Feature number 2") 
plt.ylim([np.min(feature2), np.max(feature2)]) 
plt.show() 


特征 选择 / 气 例 五 : Test with permutations the significance of a 
classification score 


http://scikit-learn.org/stable/auto examples/feature selection/plot permutation test for classification.html 


3636.5] 3: 32 RAR SAR BRE SEE DAG > BARBRA DMA DE: de SLE S 728 FUR — ER 3E HEIC LOS 2- 
Ho ALORS SR SUD AL CAR > RRK ED PAE RR > ALR BAAD PAIR RV AGN AURI CREE AR 
(交叉 验证 ) 来 输入 分 类 机 ， 针 对 不 同类 型 的 分 类 做 对 应 的 评分 ， 统 计 出 不 同 的 资料 与 标签 组合 所 得 到 的 准确 度 与 标签 的 显著 
性 。 permutation test score 提供 了 对 分 类 标 敏 做 随机 置换 的 功能 ， 疮 依照 给 定 的 置换 次 数 来 计算 不 同 的 资料 组 合 配 上 
置换 过 标签 的 组 合 ， 用 交叉 验证 来 计算 准确 性 分 休 ， 芷 统计 显著 性 。 计 算 过 和 后 可 取得 该 分 类 机 器 的 趴 实 分 数 与 经 过 数 次 组 合 
后 取得 的 分 数 。 


Data setl Data set2 
o Xx O x o x E O X X X X O + 
permutations 
o Oo O X X O + X x O X X X 十 
o O X O O X + o o O x x o - 
Oo x X X X O - o x O X © X - 
x x O x X X - o O O X X oO - 


1 资料 集 : 高 尾 花 

2. 特征 : 3- A (sepal)Z- & 9 HUA A 1638 (petal) RSH 

3. 预测 目标 : 共有 三 种 高 尾 花 setosa, versicolor, virginica 

4. 机 器 学 习 方 法 : 线性 分 类 

5. 探讨 重点 : 变换 训练 资料 分 类 的 目标 标 敏 ， 减 少 标 敏 数值 对 分 类 的 影响 
6 


.关键 函 式 : sklearn.cross_validation.permutation_test_score 


[1] Ojala and Garriga. Permutation Tests for Studying Classifier Performance. The Journal of Machine Learning 
Research (2010) vol. 11 


(一 ) 取 得 高 尾 花 资料 
本 范例 使 用 datasets.load iris() 读 取 具有 4 个 资讯 影响 力 特征 与 150 个 样本 的 蔚 尾 花 资 料 ， 该 资料 被 分 类 高 三 个 类 型 。 
蔡 且 额外 增加 2200 笔 150 长 度 的 杂 讯 做 高 不 具 资 讯 影响 力 的 特征 ， 来 增加 装 认 复杂 度 。 


# Loading a dataset 
iris = datasets.load_iris() 
X = iris.data 


y = iris.target 


=) 


| classes = np.unique(y).size 


# Some noisy data not correlated 
random = np.random.RandomState(seed-0) 
E = random.normal(size-(len(X), 2200) ) 


# Add noisy data to the informative features for make the task harder 
X = np.c_[X, E] 


(二 ) 建 立 基本 的 支持 向 量 分 类 机 


使 用 SVC 建立 最 基本 的 支持 向 量 分 类 机 。 状 设 定 训 练 交 又 验证 的 抄 达 系数 局 2。 


svm = SVC(kernel-'linear') 
cv = StratifiedKFold(y, 2) 


(三 ) 重 被 随机 变换 训练 资 料 益 统 计 淮 确 率 


当 整 理 好 训练 资料 ， 以 及 支持 向 量 分 类 机 的 设 定 后 ， 我 们 以 permutation test score AERA AR FAY ARS R aT 
合 ， 以 及 对 应 的 分 类 机 分 数 。 除 了 基本 的 支持 向 量 机 物件 、 训 练 资料 、 训 缚 目标 ， 偿 需要 指定 对 分 类 结果 的 评分 方式 、 交 又 
验证 物件 。 与 重复 随机 变换 法 有 关 的 参数 像 是 置换 次 数 ( 预 设 启 100) 与 使 用 CPU 的 数目 ( 预 设 启 1) 也 可 依照 使 用 者 使 用 情况 而 

BS. 


Score, permutation scores, pvalue - permutation test score( 


svm, X, y, scoring-"accuracy", cv-cv, n permutations-100, n jobs-1) 


print("Classification score %s (pvalue : 96s)" 96 (score, pvalue)) 
经 过 计算 的 结果 ， 会 给 予 实际 的 分 类 机 分 数 、 每 次 随机 置换 的 分 数 以 及 p-value。 


资料 算出 来 的 分 类 机 分 数 图 表 


最 后 一 个 部 分 ， 就 是 把 permutation test score 算出 来 的 结果 以 圆 表 的 方式 呈现 。 


THEHVHHUHHHHBHBHHHHBHHHVHHBHHBHHHHBHHHHBHHBHHHBHHHH HH BHHHHBHHHBHHHHHH HH BHHHHBHHBRBHEHB S HH I 
# View histogram of permutation scores 

plt.hist(permutation scores, 20, label='Permutation scores') 

ylim = plt.ylim() 

# BUG: vlines(..., linestyle='--') fails on older versions of matplotlib 


#plt.vlines(score, ylim[0], ylim[1], linestyle-'-- 


# color='g', linewidth=3, label='Classification Score' 
# ' (pvalue %s)' % pvalue) 

Zplt.vlines(1.0 / n classes, ylim[0], ylim[1], linestyle-'-- 

# color='k', linewidth=3, label='Luck' ) 

plt.plot(2 * [score], ylim, '--g', linewidth=3, 


label='Classification Score' 
' (pvalue %s)' % pvalue) 
plt.plot(2 * [1. / n classes], ylim, '--k', linewidth-3, label-'Luck') 


plt.ylim(ylim) 
plt.legend() 


plt.xlabel('Score') 
plt.show() 


35 85 d 


Python source code: plot select from model boston.py 





Ex 5: Test with permutations the significance of a classification score 


# Author: Alexandre Gramfort <alexandre.gramfort@inria.fr> 


# License: BSD 3 clause 


print( doc ) 


import numpy as np 


import matplotlib.pyplot as plt 


from sklearn.svm import SVC 
from sklearn.cross validation import StratifiedKFold, permutation test score 


from sklearn import datasets 


THEE PE TEEPE TE ETE EE PE EEE TE EE PE BE HB HB BH B FH ER B E FH B FH PP a BH E 
# Loading a dataset 

iris - datasets.load iris() 

X = iris.data 

y 
n classes - np.unique(y).size 


iris.target 


# Some noisy data not correlated 
random = np.random.RandomState(seed=0) 
E = random.normal(size=(len(X), 2200)) 


# Add noisy data to the informative features for make the task harder 
X = np.c_[X, E] 


svm = SVC(kernel-'linear') 
cv = StratifiedKFold(y, 2) 


score, permutation_scores, pvalue = permutation_test_score( 


svm, X, y, scoring="accuracy", cv-cv, n permutations-100, n jobs-i) 


print("Classification score %s (pvalue : 96s)" 96 (score, pvalue)) 


THHHBHHHHHBHHHBHHHHHHHBHHBHHHHHHHHHBHHBHHHHHHBHHHHHBHHBHHHHBHHHBHHHHBHHHHBHHBHHHHBHHBHHHHHBHHHHBHHBHE 
# View histogram of permutation scores 
plt.hist(permutation_scores, 20, label='Permutation scores') 
ylim = plt.ylim() 
# BUG: vlines(..., linestyle='--') fails on older versions of matplotlib 
#plt.vlines(score, ylim[0], ylim[1], linestyle='--', 
# color='g', linewidth=3, label='Classification Score' 
# ' (pvalue %s)' % pvalue) 
#plt.vlines(1.0 / n classes, ylim[0], ylim[1], linestyle='--', 
# color='k', linewidth=3, label='Luck') 
plt.plot(2 * [score], ylim, '--g', linewidth=3, 
label='Classification Score' 
' (pvalue %s)' % pvalue) 
plt.plot(2 * [1. / n classes], ylim, '--k', linewidth=3, label='Luck') 


plt.ylim(ylim) 
plt.legend() 


C 
co 


Ex 5: Test with permutations the significance of a classification score 


plt.xlabel('Score') 
plt.show() 
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特征 选择 / 气 例 六 : Univariate Feature Selection 


http://scikit-learn.org/stable/auto examples/feature selection/plot feature selection.html 


36 $00] a 30 3- 86 EE ETE o BRIE EAL PS to A BB IE SUPE BLUT FU 271 8 FECE SR) 3E ELE HE BE BS o TET IG 4B 
fr 3 d Bh p-value 与 其 在 支持 向 量 机 中 的 权重 。 可 以 从 图 表 中 看 出 主要 影响 力 特 征 的 选择 会 选 出 具有 主要 影响 力 的 
特征 ， 疮 且 这 些 特征 会 在 支持 向 量 机 有 相当 大 的 权重 。 在 本 箔 例 的 所 有 特征 中 ， 只 有 最 前 面 的 四 个 特征 是 对 目标 有 意义 的 。 
我 们 可 以 看 到 这 些 特征 的 单 变 量 特征 评分 很 高 。 而 支持 向 量 机 会 赋 子 最 主要 的 权重 到 这 些 具 影 响 力 的 特征 之 一 ， 但 也 会 挑 吐 
剩 下 的 特征 来 做 判断 。 在 支持 向 量 机 增加 权重 之 前 就 确定 那些 特征 较 具有 影响 力 ， 和 从 而 增加 状 识 率 。 








资料 集 : BB 

特征 : 葛 片 (sepal) 之 长 与 宽 以 及 花 办 (petal) 之 长 与 宽 

预测 目标 : JE 4$ E it setosa, versicolor, virginica 

机 器 学 习 方 法 : 线性 分 类 

探讨 重点 : 使 用 单 变 量 选 择 ( SelectPercentile ) 挑 出 训练 特征 ， 与 直接 将 所 有 训练 特征 输入 的 分 类 器 做 比较 
关键 函 式 : sklearn.feature selection.SelectPercentile 


oak WN > 


(—)F RRA Be Ht 


用 datasets.load_iris() MRA E68 FAME RAW A N hite o ÉA np.random.uniform 建立 二 十 个 随机 资料 做 
Ey KL EI AF > 35 SHELA, SARK o 


# import some data to play with 


# The iris dataset 


iris = datasets.load_iris() 


# Some noisy data not correlated 


E = np.random.uniform(O, 0.1, size-(len(iris.data), 20)) 


4 Add the noisy data to the informative features 
X - np.hstack((iris.data, E)) 


y - iris.target 


(二 ) 使 用 f-value 作 高 判断 的 基准 来 找 主要 影响 力 特 征 


以 SelectPercentile 作 单 变量 特征 的 计算 ， 以 F-test( f_classif ) 来 做 局 玩 择 的 统计 方式 ， 挑 玩 函 式 坦 出 结果 大 於 百 分 
之 十 的 特征 。 痊 将 计算 出 来 的 单 便 量 特征 分 数 结 果 做 正规 化 ， 以 便 比 较 每 特征 在 使 用 单 变 量 计算 与 未 使 用 单 变 量 计 算 的 差 


3l o 


THHVEHHHHBHBHBHHHHBHHHHEHHHHBHHHBHHHHBHHEHHERHHSHHHHHBHHHHBHHEHHEHHSHHHHHBHHHHBHHRHERH S HH IHRE 
# Univariate feature selection with F-test for feature scoring 

# We use the default selection function: the 10% most significant features 
selector = SelectPercentile(f_classif, percentile=10) 

selector.fit(X, y) 

scores = -np.log10(selector.pvalues_) 

scores /= scores.max() 

plt.bar(X_indices - .45, scores, width=.2, 


label=r'Univariate score ($-Log(p_{value})$)', color='g') 


(三 ) 找 出 不 计算 单 变 量 特征 的 分 类 权重 


以 所 有 特征 资料 ， 以 线性 核 函数 丢 入 支持 向 量 分 类 机 ， 找 出 各 特征 的 权重 。 
THEHUHUHHHHBHBHHHHBHHEHHHHHHBHHHBHHHHBHHHBHHHHH HH BHHHHBHHHEHH SH HH HH BHHHHBHRHEHH B HH I 
4 Compare to the weights of an SVM 
clf - svm.SVC(kernel-'linear') 


clf.fit(X, y) 


svm weights = (clf.coef ** 2).sum(axis-0) 


svm weights /- svm weights.max() 


plt.bar(X indices - .25, svm weights, width=.2, label-'SVM weight', color='r') 


(m) HESSEN BGEI I AIRES 
VA SB AS AF BE TE SE th 85 4E B^ LA DP FAY 9 URBE EE eR) EBERT 
用 selector.transform(X) 将 SelectPercentile RIF h ARAR RAR > SEE IR LESE AEBGE JE CIR JUGE AER > BD 


类 器 的 判断 权重 。 


clf_selected = svm.SVC(kernel-'linear') 


clf_selected.fit(selector.transform(X), y) 


svm weights selected = (clf selected.coef  ** 2).sum(axis=0) 


svm weights selected /- svm weights selected.max() 


plt.bar(X indices[selector.get support()] - .05, svm weights selected, 
width=.2, label-'SVM weights after selection', color='b') 


(五 ) 原 始 码 出 处 


Python source code: plot feature selection.py 
print( doc ) 


import numpy as np 
import matplotlib.pyplot as plt 


from sklearn import datasets, svm 


from sklearn.feature selection import SelectPercentile, f classif 





# import some data to play with 


# The iris dataset 


iris - datasets.load iris() 


# Some noisy data not correlated 


E = np.random.uniform(0, 0.1, size-(len(iris.data), 20)) 


# Add the noisy data to the informative features 
X - np.hstack((iris.data, E)) 


iris.target 


THEHEHHHHBHU BEGET EEE PETE HE ETE PETE BFE EEA HHHE RH HER BH HHHH RH HH BH E HH HH EHE RH HH 
plt.figure(1) 
plt.clf() 


X indices - np.arange(X.shape[-1]) 


THEHHBHHHHHBHHHBHHBHHBHHHBHBHHHHHBHHHBHHBHHHHHBHBHHHBHHBHHHHBHHBHHBHHHBHHBHHHBHBHHHHBHHBHHBHHHBHBHHBHBE 
# Univariate feature selection with F-test for feature scoring 
# We use the default selection function: the 10% most significant features 
selector - SelectPercentile(f classif, percentile-10) 
selector.fit(X, y) 
scores = -np.logiO(selector.pvalues ) 
Scores /- scores.max() 
plt.bar(X indices - .45, scores, width=.2, 
label=r'Univariate score ($-Log(p_{value})$)', color='g') 


THHHBHHHHHHHHHBHHHHHHHHBHHHBHHHHBHHHHHHBHHHBHHHHHBHBHHHBHHBHHHHBHHHBHHHHHBHHHHBHHBHHHHBHHBHHHHHBHHHHBHBHHI 
# Compare to the weights of an SVM 

clf = svm.SVC(kernel-'linear') 

clf.fit(X, y) 


svm weights = (clf.coef_ ** 2).sum(axis=0) 


svm weights /- svm weights.max() 


plt.bar(X indices - .25, svm weights, width=.2, label-'SVM weight', color='r') 


Cclf selected = svm.SVC(kernel-'linear') 


clf_selected.fit(selector.transform(X), y) 


svm weights selected = (clf selected.coef  ** 2).sum(axis=0) 


svm weights selected /- svm weights selected.max() 


plt.bar(X indices[selector.get support()] - .95, svm weights selected, 


width=.2, label-'SVM weights after selection', color='b') 


plt.title("Comparing feature selection") 
plt.xlabel('Feature number') 
plt.yticks(()) 

plt.axis('tight') 

plt.legend(loc-'upper right') 

plt.show() 


4 Bh 3 4E/ $2, | +: Comparison of F-test and mutual information 


http://scikit-learn.org/stable/auto_examples/feature_selection/plot_f_test_vs_mi.html#sphx-glr-auto-examples-feature- 
selection-plot-f-test-vs-mi-py 


3& 18) FEAA AF AE SE- 6I EAE AF 19 FAIA Y i * F-test statistics 4 &mutual information » 3E % x 4 Mik d£ T VA A RAE 4 LY 
FAR > AVF] BTS 4s RTE FX © 


WEAR T = MAF SE OCT, x2, X327 78 460321200] > LARBEAAARHA MAAR: y = x14 *sin(6 pi x2)*0.1 * N(0,1) 
Se SAF LSE E STA Bl A AR Aa B] 


Fmt) SAE WT yA ax i2 wise > 3e H4eF-test statistics mutual information 的 计算 分 数 算出 来 ， 可 以 看 到 不 
同 的 变数 影响 方式 在 两 种 方法 会 有 不 同 的 结果 。 


F-test 的 结果 只 会 关注 线性 相关 的 爸 数 影响 ， 该 方法 选择 X1 作 高 最 具有 特征 影响 力 的 释 量 。 另 一 方面 ，mutual information 
法 可 以 玩 出 经 过 不 同 有 函 式 呈 现 的 目标 变数 特征 ， 而 他 玩 择 了 X2 作 高 最 具有 影响 力 的 特征 ， 我 们 在 直 浊 上 认 高 能 找 出 经 过 三 角 
防 数 转换 过 的 特征 变数 ， 更 符合 在 这 个 例子 中 目标 变数 的 影 儿 方式。 而 雨 种 方法 都 准确 的 判断 x3 和 与 目标 变数 乱 相 天性 。 

F-test=1.00, MI=0.36 


F-test=0.28, MI=1.00 F-test=0.00, MI=0.00 
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import numpy as np 
import matplotlib.pyplot as plt 


from sklearn.feature selection import f regression, mutual info regression 


np.random.seed(0) 
X - np.random.rand(1000, 3) 
y = X[:, 0] + np.sin(6 * np.pi * X[:, 1]) + 0.1 * np.random.randn(1000) 


f test, _ = f regression(X, y) 
f test /- np.max(f test) 


mi - mutual info regression(X, y) 


mi /- np.max(mi) 


plt.figure(figsize-(15, 5)) 
for i in range(3): 
plt.subplot(1, 3, i+ 1) 
plt.scatter(X[:, i], y) 
plt.xlabel("$x_{}$".format(i + 1), fontsize=14) 
if ai == O0; 
plt.ylabel("$y$", fontsize-14) 
plt.title("F-test-[:.2f), MI={:.2f}".format(f_test[i], mi[i]), 
fontsize-16) 
plt.show() 


Feature Selection 


互 分 解 | 气 例 一 :Compare cross decomposition methods 


http://scikit-learn.org/stable/auto examples/cross decomposition/plot compare cross decomposition.html 


3& 4| $6.0] BAY re rod MD OD AES ZA o Bp APE HER ee AEA SIR HX, (Latent variable modeling) 分 析 来 寻找 两 个 
Age 2 pes Sa yo Brea Ib AA SS (Manifest variable) ， 也 就 是 一 般 的 观察 变量 (Observational variable) * 78 
变量 是 可 能 会 影响 实验 观察 的 一 个 未 知 因素 。 


(一 ) 引 入 元 式 库 及 内 建 手 写 数 字 资 料 库 
引入 之 函 式 库 如 下 


1. matplotlib.pyplot: R&B 37 4& 

2. sklearn.cross decomposition: 互 分 解 物件 

3. PLSCanonical: Partial Least Squares 兆 最 小 平方 法 
4. PLSRegression: PLS 兆 最 小 平方 过 名 法 

5. CCA: Canonical correlation analysis 典型 相关 分 析 


import numpy as np 
import matplotlib.pyplot as plt 


from sklearn.cross decomposition import PLSCanonical, PLSRegression, CCA 


5 EE590XE RE YU 
n = 500 
HOXURSBTEREGE: 


11 = np.random.normal(size-n) 


= 
N 
M 


np.random.normal(size-n) 
# np.array([11, 11, 12, 12]).shape = (4L, 500L) 
4 latents 500 x 4 Ž# 


latents = np.array([11, 11, 12, 12]).T 


LINGE. A £ ENY kes nd 
HIE TF Ro A ALB AX, YA 


latents + np.random.normal(size=4 * n).reshape((n, 4)) 


X x 


latents + np.random.normal(size=4 * n).reshape((n, 4)) 


X_train = X[:n / 2] 
Y_train = Y[:n / 2] 
X_test = X[n / 2:] 
Y test = Y[n / 2:] 


# numpy.corrcoef(x, y=None) 用 来 记 算 Pearson product-moment +8} 
print("Corr(X)") 

print(np.round(np.corrcoef(X.T), 2)) 

print("Corr(Y)") 

print(np.round(np.corrcoef(Y.T), 2)) 





Corr(X) 

EL abs 0.48 
[ 0.48 

[ 0.02 0.02 
[ 0. -0.02 
Corr (Y) 

leet 0.49 -0.01 
[ 0.49 1. -0.06 
[-0.01 -0.06 1. 

[ 0.05 0.06 0.53 


.02 0. ] 
.02 -0.02] 


oO FP © © 


.51 1. ]] 
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# Canonical (symmetric) PLS 


# Transform data 


plsca = PLSCanonical(n components-2) 


plsca.fit(X_train, Y train) 


X train r, Y train r - plsca.transform(X train, Y train) 





X test r, Y test r - plsca.transform(X test, Y test) 





# Scatter plot of scores 


# 1) On diagonal plot X vs Y scores on each components 

#figure = plt.figure(figsize=(30,20), dpi=300) 

plt.figure(figsize-(12, 8), dpi=600) 

plt.subplot(221) 

plt.plot(X train r[:, 0], Y train r[:, 0], "ob", label="train") 

plt.plot(X test r[:, 0], Y test r[:, 0], "or", label="test") 

plt.xlabel("x scores") 

plt.ylabel("y scores") 

plt.title('Comp. 1: X vs Y (test corr = %.2f)' 96 
np.corrcoef(X test r[:, 0], Y test r[:, 0])[0, 1]) 

plt.xticks(()) 

plt.yticks(()) 

plt.legend(loc="best") 


plt.subplot(224) 

plt.plot(X train r[:, 1], Y train r[:, 1], "ob", label="train") 

pit:;plot(X*test*n[: 41], Y test rik, 2], “ont, Label= test ) 

plt.xlabel("x scores") 

plt.ylabel("y scores") 

plt.title('Comp. 2: X vs Y (test corr = %.2f)' 96 
np.corrcoef(X test r[:, 1], Y test r[:, 1])[0, 1]) 

plt.xticks(()) 

plt.yticks(()) 

plt.legend(loc="best") 


# 2) Off diagonal plot components 1 vs 2 for X and Y 
plt.subplot(222) 

plt.plot(X train r[:, 0], X train r[:, 1], "*b", label="train") 
pit- plot(X test ri: Ol, X test rik, 1 rr Label="test) 





解 Cross Decomposition 


.Xlabel("X comp. 1") 
.ylabel("X comp. 2") 
.title('X comp. 1 vs X comp. 2 (test corr = %.2f)' 


% np.corrcoef(X test r[:, 0], X test r[:, 1])[0, 1]) 


. Legend(loc="best") 
.xticks(()) 
.yticks(()) 


.subplot(223) 

.plot(Y train r[:, 0], Y train r[:, 1], "*b", label-"train") 
splot(Yotest rls, 0], Y testini 1], "*r^, label="test") 
.Xlabel("Y comp. 1") 

.ylabel("Y comp. 2") 

seit re(iyY com ive Ycomnp 2 (test corr = 6.2) 


% np.corrcoef(Y test r[:, 0], Y test r[:, 1])[0, 1]) 


. Legend(loc="best") 
.xticks(()) 


.yticks(()) 
. show( ) 


Comp. 1: X vs Y (test corr = 0.69) X comp. 1 vs X comp. 2 (test corr = -0.08) 





x scores X comp 1 


Y comp. 1 vs Y comp. 2 , (test corr = 0.04) 








ymposition 


THHHHHHHHHHHHHHHHHHHHHHHHHHBHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHBHHBHHHHHHHHHHHHBE 


# PLS regression, with multivariate response, a.k.a. PLS2 


- 1000 
-3 
- 10 


np.array([[1, 2] + [0] * (p - 2)] * q).T 
each Yj = 1*X1 + 2*X2 + noize 


n 
q 
p 
X - np.random.normal(size-n * p).reshape((n, p)) 
B 
# 
Y 


= np.dot(X, B) + np.random.normal(size=n * q).reshape((n, q)) + 5 


pls2 = PLSRegression(n components-3) 
pls2.fit(X, Y) 

print("True B (such that: Y = XB + Err)") 
print(B) 

# compare pls2.coef with B 
print("Estimated B") 
print(np.round(pls2.coef , 1)) 
pls2.predict(X) 


THHHHHHHHHHHHHHHHHHHHHHHHHHBHHHBHHBHHHHHHHHHHHHHHHBHHBHHHHHHHHHHHHHHHBHHBHHHHHHHHHHBHHEIE 


# PLS regression, with univariate response, a.k.a. PLS1 


n = 1000 

p = 10 

X = np.random.normal(size=n * p).reshape((n, p)) 

y = X[:, 0] + 2 * X[:, 1] + np.random.normal(size=n * 1) + 5 


plsi = PLSRegression(n components-3) 

plsi.fit(X, y) 

# note that the number of compements exceeds 1 (the dimension of y) 
print("Estimated betas") 

print(np.round(plsi.coef , 1)) 


EERE TERETE EPAPER PETE HEE TE PETE BF EE EAE PTE TE EE PEE HEEB PTE BH HHHHRHERHBRHERTHH RH HHHHH E HE HER HE GG 
# CCA (PLS mode B with symmetric deflation) 


cca = CCA(n_components=2) 
cca.fit(X train, Y train) 





X train r, Y train r - plsca.transform(X train, Y train) 





X test r, Y test r - plsca.transform(X test, Y test) 


True B (such that: Y = XB + Err) 
[[1 1 1] 

[2 2 2] 

[0 © 0] 

[0 9 0] 

[0 © 0] 

[0 9 0] 

[0 © 0] 

[0 9 0] 

[0 © 0] 

[0 0 91] 
Estimated B 
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Estimated betas 


[[ 1. ] 
[ 2. ] 
[ 9. ] 
[ 9. ] 
[ 9. ] 
[ 9. ] 
[ 9. ] 
[-9.1] 
[ 9. ] 
[ 9. ]] 

(四 ) 完 整 程式 码 


Python source code: plot compare cross decomposition.py 
http://scikit-learn.org/stable/ downloads/plot compare cross decomposition.py 
print( doc ) 
import numpy as np 
import matplotlib.pyplot as plt 


from sklearn.cross decomposition import PLSCanonical, PLSRegression, CCA 


THHHHHHUHHHHHHHBHHBHHHHHHUBHHBHHHHHBHBHHHHHHHHBHBHHHHHBHBHHHHHBHHHHHBHHHHBHBHHBHHHHHBHNE 











# Dataset based latent variables model 


n = 500 
# 2 latents vars: 


11 = np.random.normal(size-n) 


12 = np.random.normal(size-n) 


latents = np.array([11, 11, 12, 12]).T 
X 
Y 


latents + np.random.normal(size-4 * n).reshape((n, 4)) 


latents + np.random.normal(size-4 * n).reshape((n, 4)) 


X train - X[:n / 2] 
Y train - Y[:n / 2] 
X test - X[n / 2:] 


Y test = Y[n / 2:] 


print("Corr(X)") 
print(np.round(np.corrcoef(X.T), 2)) 
print("Corr(Y)") 
print(np.round(np.corrcoef(Y.T), 2)) 





IHHHHHHHHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHEHHHHHHHHHHHHHHHBHHHHHHHHHHE 


# Canonical (symmetric) PLS 


# Transform data 


plsca = PLSCanonical(n components-2) 


plsca.fit(X_train, Y train) 


X train r, Y train r - plsca.transform(X train, Y train) 





X test r, Y test r - plsca.transform(X test, Y test) 





# Scatter plot of scores 


# 1) On diagonal plot X vs Y scores on each components 

plt.figure(figsize-(12, 8)) 

plt.subplot(221) 

plt.plot(X train r[:, 0], Y train r[:, 0], "ob", label="train") 

pitepir'ot(OGsEes tS [e Y testini- 0l or Jabel test) 

plt.xlabel("x scores") 

plt.ylabel("y scores") 

plt.title('Comp. 1: X vs Y (test corr = %.2f)' 96 
np.corrcoef(X test r[:, 0], Y test r[:, 0])[0, 1]) 

plt.xticks(()) 

plt.yticks(()) 

plt.legend(loc="best") 


plt.subplot(224) 

plt.plot(X train r[:, 1], Y train r[:, 1], "ob", label="train") 

plt.plot(X test r[:, 1], Y test r[:, 1], "or", label="test") 

plt.xlabel("x scores") 

plt.ylabel("y scores") 

plt.title('Comp. 2: X vs Y (test corr = %.2f)' 96 
np.corrcoef(X test r[:, 1], Y test r[:, 1])[0, 1]) 

plt.xticks(()) 

plt.yticks(()) 

plt.legend(loc="best") 


# 2) Off diagonal plot components 1 vs 2 for X and Y 


plt.subplot(222) 
plt.plot(X train r[:, 0], X train r[:, 1], "*b", label="train") 
plt.plot(X test r[:, 0], X test r[:, 1], "*r", label="test") 
plt.xlabel("X comp. 1") 
plt.ylabel("X comp. 2") 
plt.title('X comp. 1 vs X comp. 2 (test corr = %.2f)' 

% np.corrcoef(X test r[:, 0], X test r[:, 1])[0, 1]) 
plt.legend(loc="best") 
plt.xticks(()) 
plt.yticks(()) 


plt.subplot(223) 
plt.plot(Y train r[:, 0], Y train r[:, 1], "*b", label="train") 
plitoplot (Y testiri mete sten P tn aabei-iesti5) 
plt.xlabel("Y comp. 1") 
plt.ylabel("Y comp. 2") 
plt.title('Y comp. 1 vs Y comp. 2 , (test corr = %.2f)' 
% np.corrcoef(Y test r[:, 0], Y test r[:, 1])[0, 1]) 
plt.legend(loc="best") 
plt.xticks(()) 
plt.yticks(()) 
plt.show() 


HHHHHHHHBHHHHHHHHHBHHHHHHHHHHBHHHHHHHHHHHHHHHHHHHHHHHHHH HH HH BHHBHHHHHHHHBHHBHHHNMN S 


# PLS regression, with multivariate response, a.k.a. PLS2 


- 1000 
-3 
- 10 


n 
q 
p 
X - np.random.normal(size-n * p).reshape((n, p)) 
B = np.array([[1, 2] + [0] * (p - 2)] * q).T 

# each Yj = 1*X1 + 2*X2 + noize 

M 


= np.dot(X, B) + np.random.normal(size-n * q).reshape((n, q)) + 5 


pls2 - PLSRegression(n components-3) 
pls2.fit(X, Y) 

print mr ue Ba(suchhthats Y XB EIN 
print(B) 

# compare pls2.coef_ with B 
print("Estimated B") 
print(np.round(pls2.coef_, 1)) 
pls2.predict(X) 


HHHHHHHHBHHHHHHHHHBHHHHHHHHHHBHHBHHHHHHHHHHHHHHBHHHHHHHH HH HH BHHBHHHHHHHHHBHHBHHHHN NN S 


# PLS regression, with univariate response, a.k.a. PLS1 


1000 
10 


n 
p 
X np.random.normal(size-n * p).reshape((n, p)) 

y = X[:, 0] + 2 * X[:, 1] + np.random.normal(size-n * 1) + 5 
plsi = PLSRegression(n components-3) 

plsi.fit(X, y) 


# note that the number of compements exceeds 1 (the dimension of y) 





ymposition 


print("Estimated betas") 
print(np.round(plsi.coef , 1)) 


THEHEHHHHBHUH B HHHBHDBHERHHHBHHH HH HERR B TH TEE ER PE HT BE HHHHH E RH HE HH G 
# CCA (PLS mode B with symmetric deflation) 


cca - CCA(n components-2) 
cca.fit(X train, Y train) 
X train r, Y train r - plsca.transform(X train, Y train) 





X test r, Y test r = plsca.transform(X test, Y test) 





通用 范例 General Examples 


通用 范例 /范例 一 : Plotting Cross-Validated Predictions 


http://scikit-learn.org/stable/auto_examples/plot_cv_predict.html 


资料 集 : 波士顿 房产 

特征 : 房地产 客 秽 数据 ， 如 年 份 、 平 面 大 小 

预测 目标 : 房地产 价格 

机 器 学 习 方 法 : 线性 过 名 

探讨 重点 : 10 等 分 的 交 又 验证 (10-fold Cross-Validation) 来 实际 测试 资料 以 及 预测 值 的 天 休 


关键 函 式 : sklearn.cross validation.cross val predict 





aa WN > 


(一 ) 引 入 函 式 库 及 内 建 测试 资料 库 


引入 之 函 式 库 如 下 


matplotlib.pyplot : Až RY 

sklearn.datasets : 用 来 给 入 内 建 测试 资料 库 

sklearn.cross_validation import cross val predict :利用 交 又 验证 的 方式 求 预测 
sklearn.linear model : 4$ M 4I $f 


FON 一 


(二 ) 引 入 内 建 测试 资料 库 (boston 房 产 资 料 ) 
使 用 datasets.load boston() 将 资料 存 入 ， boston 高 一 个 dict 型 别 资料 ， 我 们 看 一 下 资料 的 内 容 。 


lr = linear model.LinearRegression() 
#lr = LinearRegression(copy X-True, fit intercept-True, n jobs-1, normalize-False) 
boston - datasets.load boston() 


y - boston.target 


显示 说 明 
('data', (506, 13)) 房地产 的 资料 集 ， 共 506 笔 房产 13 个 特 微 
(feature_names', (13,)) 房地产 的 特征 名 
('target', (506,)) EE EE 
DESCR 资料 之 描述 


(三 ) cross val predict 的 使 用 


Sklearn.cross validation.cross val predict (estimator, X, y=None, cv=None, n_jobs=1, verbose=0, 
fit params-None, pre dispatch-'2*n jobs") 


X 局 机 器 学 习 数 据 > yROSHAR > cv X LIRGEN Rat I 2-89 ARE o S80] A T0 RUE RAD A102: 0 AR POSS 


集 ， 另 外 一 等 分 则 局 测试 集 。 


predicted = cross val predict(lr, boston.data, y, cv=10) 


(四 ) 给 出 预测 结果 和 与 实际 目标 差 吴 图 


X 于 高 回 外 目标 ，Y 丙 高 预测 结果 。 


Bon ie 





兰草 出 一 休 斜 率 =1 的 理想 曲线 (用 虚线 标示 ) 


fig, ax = plt.subplots() 

ax.scatter(y, predicted) 

ax.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=4) 
ax.set xlabel( Measured') 

ax.set ylabel('Predicted') 

plt.show() 


Predicted 





Measured 


(五 ) 完 整 程式 码 
Python source code: plot_cv_predict.py 


http://scikit-learn.org/stable/auto_examples/plot_cv_predict.html 


from sklearn import datasets 
from sklearn.cross validation import cross val predict 
from sklearn import linear model 


import matplotlib.pyplot as plt 


lr - linear model.LinearRegression() 
boston - datasets.load boston() 


y - boston.target 


# cross val predict returns an array of the same size as `y` where each entry 
# is a prediction obtained by cross validated: 


predicted = cross val predict(lr, boston.data, y, cv=10) 


fig, ax - plt.subplots() 

ax.scatter(y, predicted) 

ax.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=4) 
ax.set xlabel('Measured') 

ax.set ylabel('Predicted') 

plt.show() 


通用 范例 /范例 二 : Concatenating multiple feature extraction 
methods 


http://scikit-learn.org/stable/auto_examples/feature_stacker.html 


在 许多 实际 应 用 中 ， 会 有 很 多 方法 可 以 从 一 个 数据 集中 提取 特 籁 。 也 常常 会 组 合 多 个 方法 来 获得 良好 的 特征 。 这 个 例子 说 明 
如 何 使 用 FeatureUnion 来 结合 由 PCA 和 univariate selection 时 的 特征 。 


这 个 范例 的 主要 目的 : 


1. 资料 集 : iris FAURE 

2. 特征 : ERICH 

3. 预测 目标 : 是 那 一 种 闸 尾 花 

4. 机 器 学 习 方 法 : SVM 支持 向 量 机 
5. 探讨 重点 : 特征 结合 

6 


.关键 函 式 : sklearn.pipeline.FeatureUnion 


(—) EE E AA d 3k 


e AAE Airis E £46 AE > 1% A from sklearn.datasets import load_iris 将 资料 存 入 
e. EHX (特征 资料 ) 以 及 y (目标 资料 ) 


from sklearn.pipeline import Pipeline, FeatureUnion 
from sklearn.grid search import GridSearchCV 

from sklearn.svm import SVC 

from sklearn.datasets import load iris 


from sklearn.decomposition import PCA 





from sklearn.feature selection import SelectKBest 


iris - load iris() 


X, y = iris.data, iris.target 


测试 资料 : 
iris 高 一 个 dict 型 别 资料 。 


(target names', (3L,)) +A 248 E Zit setosa, versicolor, virginica 
('data', (150L, 4L)) 有 150 笔 资料 ， 共 四 种 特征 

('target', (150L,)) i$1503€ FAS <A — 18 BBE 

DESCR 资料 之 描述 

feature_names MEERA BK 


(—)PCA2SelectKBest 


e PCA(n components = 主要 成 份 数量 ) :Principal Component Analysis(PCA) X- RATH > X — 18 3 E] AE EAT AERE 
y pA Eo CHR BTR — 183150 RR de ^ EAL TE SR da o SCR 0G SERA o A ARAS RARS HE 
度 ， 又 希望 能 保留 住 原 数据 点 的 特性 。 


e SelectKBest(score func , k ) : score func 是 选择 特征 值 所 依据 的 函 式 ， 而 K BL CEB hs 


# This dataset is way to high-dimensional. Better do PCA: 
pca - PCA(n components-2) 


H 


# Maybe some original features where good, too? 
selection = SelectKBest(k=1) 


(三 )FeatureUnionc 


使 用 sklearn.pipeline.FeatureUnion 合 侨 主 成 分 分 析 (PCA) 和 综合 和 节选 (SelectKBest) 。 
最 后 得 到 玩 出 的 特征 


# Build estimator from PCA and Univariate selection: 


combined features - FeatureUnion([("pca", pca), ("univ select", selection)]) 


# Use combined features to transform dataset: 


X features - combined features.fit(X, y).transform(X) 


(四 ) 找 到 最 佳 的 结果 


特征 。 


e Scikit-learn 的 支持 向 量 机 分 类 函 式 库 利 用 SVC() 建立 运算 物件 ， 之 后 准 可 以 用 运算 物件 内 的 方法 fit() 与 .predict() 来 做 


3 AR EFA A] o 


e 使 用 GridSearchCV X 3 8&3 > APS] h ZI SCARE SEE HB 89 2 SCARE > REDRAR PIERS o RAAT i88 R5 PTS 


表 的 参数 

svm = SVC(kernel="linear") 

# Do grid search over k, n_components and C: 

pipeline = Pipeline([("features", combined features), ("svm", svm)]) 

param grid = dict(features pca n components-[1, 2, 3], 
features univ select k=[1, 2], 
svm__C=[0.1, 1, 10]) 

grid search = GridSearchCV(pipeline, param grid-param grid, verbose-i0) 


grid search.fit(X, y) 


print(grid search.best estimator ) 


#5 RU Fitting 3 folds for each of 18 candidates, totalling 54 fits [CV] featuresuniv_selectk=1, 
featurespcan_components=1, svmC=0.1 [CV] featuresuniv_selectk=1, featurespcan_components=1, svmC=0.1, 


score=0.960784 - 0.0s 


HH (五 ) 完 整 程式 码 
Python source code: feature stacker.py 


http://scikit-learn.org/stable/auto examples/feature stacker.html 


`` python 
# Author: Andreas Mueller <amueller@ais.uni-bonn.de> 
# 


# License: BSD 3 clause 


from sklearn.pipeline import Pipeline, FeatureUnion 
from sklearn.grid_search import GridSearchCV 

from sklearn.svm import SVC 

from sklearn.datasets import load_iris 

from sklearn.decomposition import PCA 


from sklearn.feature selection import SelectKBest 


iris load iris() 


X, y iris.data, iris.target 


4 This dataset is way to high-dimensional. Better do PCA: 


pca - PCA(n components-2) 


4 Maybe some original features where good, too? 
selection - SelectKBest(k-1) 


# Build estimator from PCA and Univariate selection: 


combined features - FeatureUnion([("pca", pca), ("univ select", selection)]) 


# Use combined features to transform dataset: 


X features - combined features.fit(X, y).transform(X) 

svm = SVC(kernel="linear") 

# Do grid search over k, n components and C: 

pipeline - Pipeline([("features", combined features), ("svm", svm)]) 

param grid = dict(features pca n components-[1, 2, 3], 
features univ select k-[41, 2], 
svm C-[0.1, 1, 10]) 

grid search - GridSearchCV(pipeline, param grid-param grid, verbose-10) 


grid search.fit(X, y) 


print(grid search.best estimator ) 


Ex 2: Concatenating multiple feature extraction methods 


80 


通用 范例 /范例 三 : Isotonic Regression 


http://scikit-learn.org/stable/auto_examples/plot_isotonic_regression.html 
18 $e BH BAR EO BHR o 


e y[]are inputs (real numbers) 
e y [are fitted 


这 个 范例 的 主要 目的 : 
比较 


e Isotonic Fit 
e Linear Fit 


(一 ) Regression [€ 5g | 


Pst RER- AR” EO T EI HERR o ea [SBR © 


(—) Linear Regression | 41232 $$ | 


Sh BAR Re S EC o RAR FARE © 
class sklearn.linear model.LinearRegression 


DER > B Bee EH o 


Linear regression 


300 
250 
200 
150 
100 

50 


3 e e Data 
—— Linear Fit 


0 20 40 60 80 100 





a 


(=) Isotonic Regression | 4&/ 38 $$ | 


SLA D EGR BR o 38 B8 S SCARED C o 
class sklearn.isotonic.IsotonicRegression 


RAF ARA > OF BALA O(N) © 


38 Isotonic regression 


250 
200 
150 
100 


50 


e e Data 
e—e |sotonic Fit 





0 20 40 60 80 100 


(四 ) ZENI 
Python source code: plot isotonic regression.py 


http://scikit-learn.org/stable/auto_examples/plot_isotonic_regression.html 


print( doc ) 


4 Author: Nelle Varoquaux <nelle.varoquaux@gmail.com> 
# Alexandre Gramfort <alexandre.gramfort@inria.fr> 
# Licence: BSD 


import numpy as np 
import matplotlib.pyplot as plt 


from matplotlib.collections import LineCollection 


from sklearn.linear model import LinearRegression 
from sklearn.isotonic import IsotonicRegression 
from sklearn.utils import check random state 


n 100 


X 


np.arange(n) 
rs = check random state(0) 


y = rs.randint(-50, 50, size-(n,)) + 50. * np.log(1 + np.arange(n)) 


THHHBHHHHHHHHHHHHHHHHHHHHBHHHHHBHHHHHHHHHHHHBHHHHHBHHHBHHHHHHHHHHHHHHHHHBHHHHHHHHHHBHE 


# Fit IsotonicRegression and LinearRegression models 


ir IsotonicRegression() 


ir.fit transform(x, y) 


< 
| 


lr = LinearRegression() 


lr.fit(x[:, np.newaxis], y) # x needs to be 2d for LinearRegression 





THHUHUHHHHUHBHHHHBHHHHBHUHHHHHHBHHBHHBHHHHEHUHHHHHBHHHHBHHHHHH SH HH HBHHHHBHRHEH S HH I RE 
# plot result 


segments = [[[i, y[i]], [i, y [i]]] for i in range(n)] 
lc - LineCollection(segments, zorder-0) 
lc.set array(np.ones(len(y))) 


lc.set linewidths(0.5 * np.ones(n)) 


fig = plt.figure() 

plt.plot(x, y, 'r.', markersize-12) 

plt.plot(x, y , 'g.-', markersize-12) 

plt.plot(x, lr.predict(x[:, np.newaxis]), 'b-') 

plt.gca().add collection(lc) 

plt.legend(('Data', 'Isotonic Fit', 'Linear Fit'), loc='lower right') 
plt.title('Isotonic regression') 

plt.show() 


Ex 3: Isotonic Regression 
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通用 气 例 / 气 例 四 : Imputing missing values before building an 


estimator 


http://scikit-learn.org/stable/auto_examples/missing_values.htm 


在 这 范例 说 明 有 时 补充 缺少 的 数据 (missing values)， 可 以 得 到 更 好 的 结果 。 但 仍然 需要 进行 交叉 验证 
。 而 missing values 可 以 用 均值 、 中 位 值 ， 或 者 频繁 出 现 的 值 代替 。 中 位 值 对 大 数据 ie 习 来 说 是 比较 稳 


(一 ) 引 入 函 式 库 及 内 建 测试 资料 库 


引入 之 函 式 库 如 下 


sklearn.ensemble.RandomForestRegressor : KIKAT $i 
sklearn.pipeline.Pipeline : 串联 估计 器 


sklearn.preprocessing.Imputer : 缺失 值 填充 
am 


OD 


sklearn.cross_validation import cross val score :交叉 验证 


(二 ) 引 入 内 建 测试 资料 库 (boston 房 产 资料 ) 


使 用 datasets.load boston() 将 资料 存 入 ， boston 高 一 个 dict 型 别 资料 ， 我 们 看 一 下 资料 的 内 容 。 
n samples 4 tk 3X 
n features # 44 3x 


dataset = load boston() 

X full, y full - dataset.data, dataset.target 
n samples = X full.shape[9] 

n features = X full.shape[:1] 


显示 说 明 
(‘data’, (506, 13)) 机 器 学 习 数 据 
(feature names', (13,)) 房地产 相关 特征 
('target', (506,)) 回 晤 目标 
DESCR 资料 之 描述 


。 来 验证 填充 是 否 合 遂 


间 定 的 估计 值 。 


共有 506 笔 资料 及 13 个 特征 (CRIM', 'ZN', INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD','TAX', 'PTRATIO', 'B', 'LSTAT') 用 


来 描述 房地产 的 过 净 状 况 ， 如 CRIM (per capita crime rate by town) kZ E& uz ILE FAY] » mid $$ B SÉ 
1000 美 元 局 单位 。 也 就 是 说 这 个 范例 希望 以 房地产 的 明 唱 客观 数据 来 预测 房地产 的 价格 。 


(三 ) 利 用 整个 数据 集 来 预测 
全 部 的 资料 使 用 随机 森林 回 铺 函数 进行 交 又 验证 ， 得 到 一 个 分 数 。 


Score with the entire dataset = 0.56 


estimator = RandomForestRegressor(random_state=0, n_estimators=100) 
Score = cross val score(estimator, X full, y full).mean() 


print("Score with the entire dataset = %.2f" 96 score) 


房地产 的 价格 ， 以 


( 四 y te A 资料 损 损失 时 之 预 1 iR 睛 形 


SUE JR A TU] > 3 45 345 T missing values 和 后 的 得 分 损失 比例 75%， 损 失 样 本 数 启 379 笔 ， 剩 余 样 本 高 127 笔 。 


将 127 笔 资料 进行 随机 森林 回 晤 函数 进行 交叉 验证 ， 站 得 到 一 个 分 数 。 


Score without the samples containing missing values = 0.49 


missing rate = 0.75 
n missing samples - np.floor(n samples * missing rate) 
missing samples - np.hstack((np.zeros(n samples - n missing samples, 
dtype=np.bool), 
np.ones(n_missing_samples, 
dtype-np.bool))) 
rng.shuffle(missing samples) 


missing features - rng.randint(0, n features, n missing samples) 


X filtered - X full[-missing samples, :] 
y filtered - y full[-missing samples] 
estimator = RandomForestRegressor(random_state=0, n estimators-100) 


Score - cross val score(estimator, X filtered, y filtered).mean() 


print("Score without the samples containing missing values = %.2f" % score) 


(£) XL missing values， 估 计 卉 充 后 的 得 分 


每 一 笔 样 本 资料 都 在 13 个 特征 中 隧 机 遗失 一 个 特征 资料 ， 
使 用 sklearn.preprocessing.Imputer 进行 missing values 的 填充 。 


class sklearn.preprocessing.Imputer(missing values-'NaN', strategy-'mean' 


opy-True) 


填充 后 进行 随机 森林 回馈 函数 进行 交叉 验证 ， 获 得 填充 和 后 分 数 。 


X missing = X full.copy() 

X missing[np.where(missing samples)[9], missing features] = 

y missing - y full.copy() 

estimator = Pipeline([("imputer", Imputer(missing values-6, 
strategy="mean", 
axis=0)), 


("forest", RandomForestRegressor(random_state=0, 


n_estimators=100))]) 


score = cross val score(estimator, X missing, y missing).mean() 


print("Score after imputation of the missing values = %.2f" 96 score) 


利用 数据 填充 后 的 过 名 函数 ， 去 测试 填充 前 的 资料 ， 预 测 的 准确 率 获 得 提升 。 


Score after imputation of the missing values = 0.57 


(六 ) 完 整 程式 硒 


Python source code: missing values.py 


http://scikit-learn.org/stable/auto_examples/missing_values.html#example-missing-values-py 


, axis=0, verbose=0, 


C 


import numpy as np 


from sklearn.datasets import load boston 

from sklearn.ensemble import RandomForestRegressor 
from sklearn.pipeline import Pipeline 

from sklearn.preprocessing import Imputer 


from sklearn.cross validation import cross val score 


rng = np.random.RandomState(0) 


dataset - load boston() 

X full, y full - dataset.data, dataset.target 
n samples - X full.shape[9] 

n features = X full.shape[1] 


# Estimate the score on the entire dataset, with no missing values 
estimator = RandomForestRegressor(random_state=0, n_estimators=100) 
score = cross val score(estimator, X full, y full).mean() 


print("Score with the entire dataset = %.2f" 96 score) 


# Add missing values in 75% of the lines 

missing rate - 0.75 

n missing samples - np.floor(n samples * missing rate) 

missing samples - np.hstack((np.zeros(n samples - n missing samples, 
dtype=np.bool), 

np.ones(n_missing_samples, 

dtype-np.bool))) 

rng.shuffle(missing samples) 


missing features = rng.randint(0, n features, n missing samples) 


# Estimate the score without the lines containing missing values 

X filtered - X full[-missing samples, :] 

y filtered - y full[-missing samples] 

estimator = RandomForestRegressor(random_state=0, n estimators-100) 
Score - cross val score(estimator, X filtered, y filtered).mean() 


print("Score without the samples containing missing values = %.2f" % score) 


# Estimate the score after imputation of the missing values 
X missing - X full.copy() 
X missing[np.where(missing samples)[9], missing features] = 0 
y missing - y full.copy() 
estimator = Pipeline([("imputer", Imputer(missing_values=0, 
strategy="mean", 
axis=0)), 
("forest", RandomForestRegressor(random_state=0, 
n_estimators=100))]) 
score = cross val score(estimator, X missing, y missing).mean() 


print("Score after imputation of the missing values = %.2f" 96 score) 


results: 
Score with the entire dataset - 0.56 
Score without the samples containing missing values - 0.48 


Score after imputation of the missing values - 0.55 


通用 范例 /范例 七 : Face completion with a multi-output estimators 


http://scikit-learn.org/stable/auto_examples/plot_multioutput_face_completion.html 


这 个 范例 用 来 展示 scikit-learn 如 何 用 extremely randomized trees , k nearest neighbors , linear regression 
和 ridge regression 演算 法 来 完成 人 脸 估 测 。 


(I A ARA BH RTA 
引入 之 函 式 库 如 下 


sklearn.datasets : 用 来 给 入 内 建 之 影像 资料 库 
sklearn.utils.validation :用 来 取 乱 数 
sklearn.ensemble 


sklearn.neighbors 


ak wD > 


sklearn.linear model 


使 用 datasets.load digits() 将 资料 存 入 ， data 局 一 个 dict 型 别 资料 ， 我 们 看 一 下 资料 的 内 容 。 


from sklearn.datasets import fetch olivetti faces 
data - fetch olivetti faces() 
targets - data.target 


data = data.images.reshape((len(data.images), -1)) 


Bon 说 明 
('images', (400, 64, 64)) 共有 40 个 人 ， 每 个 人 各 有 10 张 影像 ， 共 有 400 张 影像 ， 影 像 大 小 遍 64x64 
('data', (400, 4096)) data 8 Æ 4464x644% 4E PRP 4096 8 THK — 6E 1 
('targets', (400,)) 说 明 400 张 图 与 40 个 人 之 分 类 对 应 0-39， 记 录 每 张 影像 是 哪 一 个 人 
DESCR 资料 之 描述 


前 面 30 个 人 当 训 练 资料 ， 之 后 当 测 试 资料 


train = data[targets < 30] 
test = data[targets >= 30] 


ARR R46 100 E RLBCESTR RAE ^ HIC test 的 大 小 变 成 (5,4096) 


# Test on a subset of people 

n faces = 5 

rng = check random state(4) 

face ids = rng.randint(test.shape[0], size-(n faces, )) 


test - test[face ids, :] 


把 每 张 训 张 影像 和 测试 影像 都 切割 成 上 下 两 部 分 : 


X 人 脸 上 半 部 分 ，Y 人 脸 下 半 部 分 。 


n pixels = data.shape[:] 

X train = train[:, :np.ceil(0.5 * n pixels)] 
y train = train[:, np.floor(9.5 * n pixels):] 
X test - test[:, :np.ceil(0.5 * n pixels)] 

y test = test[:, np.floor(0.5 * n pixels):] 


(=) 38 a aR 
分 别 用 以 下 四 种 演算 法 来 完成 人 脸 下 半 部 估 测 


(绝对 随机 森林 演算 法 ) 
k nearest neighbors (K- 部 近 演 算法 ) 
演算 


算法 ) 


extremely randomized trees 


1 
2 
3. linear regression (ESF iz 
4. ridge regression ( 春 回 邹 演 算法 ) 


ESTIMATORS = { 
"Extra trees": ExtraTreesRegressor(n_estimators=10, max features-32,random state=0), 
"K-nn": KNeighborsRegressor(), 
"Linear regression": LinearRegression(), 
"Ridge": RidgeCV(), 


分 别 把 训练 资料 人 脸 上 、 下 部 分 放 入 estimator.fit() 中 进行 训练 。 上 半 部 分 人 脸 高 条 件 影像 ， 下 半 部 人 脸 遍 目标 影像 。 


y test predict 高 一 个 dict 型 别 资料 ， 存 放 5 位 测试 者 分 别 用 四 种 演算 法 得 到 的 人 脸 下 半 部 估计 结果 。 


y test predict = dict() 
for name, estimator in ESTIMATORS.items(): 
estimator.fit(X train, y train) 


y test predict[name] - estimator.predict(X test) 


(=) matplotlib.pyplot 242% 


EIR RAB to4*64 ^ MRAM AA ^ BRAD HALIM B] * Zo LRA RAAT ORR © 


image shape = (64, 64) 
n cols = 1 + len(ESTIMATORS) 
plt.figure(figsize-(2. * n cols, 2.26 * n faces)) 


plt.suptitle("Face completion with multi-output estimators", size-16) 


for i in range(n faces): 
true face - np.hstack((X test[i], y test[i])) 


abr 358 


sub 


plt.subplot(n faces, n cols, i * n cols + 1) 
eise: 


sub 


plt.subplot(n faces, n cols, i * n cols + 1, 


title-"true faces") 


sub.axis("off") 

sub.imshow(true face.reshape(image shape), 
cmap-plt.cm.gray, 
interpolation="nearest") 


for j, est in enumerate(sorted(ESTIMATORS) ): 
completed face = np.hstack((X test[i], y test predict[est][i])) 


sip ale 


sub = plt.subplot(n faces, n cols, i * n cols + 2 + j) 


esser 
sub = plt.subplot(n faces, n cols, i * n cols + 2 + j, 
title-est) 


sub.axis("off") 
sub.imshow(completed face.reshape(image shape), 
cmap=plt.cm.gray, 


interpolation="nearest") 


plt.show() 


Ex 7: Face completion with a multi-output estimators 


Face completion with multi-output estimators 


true faces Extra trees K-nn Linear regression Ridge 


d cd d cd 
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群 聚 法 Clustering 


范例 十 二 :Spectral clustering for image segmentation 


http://scikit-learn.org/stable/auto examples/cluster/plot segmentation toy.html 





此 范例 是 利用 Spectral clustering AK E 5| 3 5 [E] E] > HERBY DAD AIR e 


1 
2. #34 np.indices A% X R6 EE 
3. 用 spectral clustering 区 分 出 各 个 不 同 区 域 特 征 


(~) A AUR 


AARET : 

1. numpy Æ ERS Beha 

2. matplotlib.pyplot :M Š% 8 3 

3. sklearn.feature extraction import image 445 f Æ 65 6 72 M18 1146 
4. sklearn.cluster import spectral clustering :将 影像 正规 化 切割 


import numpy as np 


import matplotlib.pyplot as plt 


from sklearn.feature extraction import image 


from sklearn.cluster import spectral clustering 


(ELEREN ERNEA 
。 EMA BALA BR (EE A 100x100) > F A SRB HE LAR eE 9:0...) 4 e 


l - 100 
X, y = np.indices((1, 1)) 


e XE vudE E] Ai B] s RR 3E e REE 
e 给 定 四 个 圆圈 的 半径 长 度 
e. 将 圆心 座 标 与 半径 结合 产生 四 个 圆圈 图像 


centeri = (28, 24) 
center2 - (40, 50) 
center3 = (67, 58) 
center4 = (24, 70) 


radiusi, radius2, radius3, radius4 = 16, 14, 15, 14 


circlei (x = centerIiol = 2 + (y =- center d] s < radiusi ** 
circle2 = (x - center2[0]) ** 2 + (y - center2[1]) ** 
(x - center3[0]) ** 2 + (y - center3[1]) ** 


circle4 = (x - center4[0]) ** 2 + (y - center4[1]) ** 


< radius2 ** 


circle3 < radius3 ** 


I 
N N N N 
N N N N 


< radius4 ** 


e 将 上 一 段 产生 的 四 个 圆圈 影像 合 侨 局 img ARA AE A4 
e mask 高 布 林 形 式 的 img 


e img 局 浮 点 数 形式 的 img 
e 用 乱 数 产生 的 方法 将 整 张 影像 作乱 数 处 理 


# 4 circles 
img = circlel + circle2 + circle3 + circle4 
mask = img.astype(bool) 
img - img.astype(float) 
img += 1 + 0.2 * np.random.randn(*img.shape) 
接著 将 产生 好 的 影像 化 局 可 使 用 spectral_clustering 的 影像 


e image.img to graph 用 来 处 理 跟 缘 的 权重 与 每 个 像 速 间 的 梯度 并 联 有 关 
e 用 类 似 Voronoi Diagram 演 算法 的 概念 来 处 理 影像 


graph = image.img to graph(img, mask=mask) 


graph.data - np.exp(-graph.data / graph.data.std()) 


最 后 用 spectral clustering 将 速 在 一 起 的 部 分 切 并 ， 而 spectral clustering 中 的 各 项 参数 


e graph : 必须 是 一 个 矩阵 且 大 小 高 nxn 的 形式 
e n clusters-4 : 需要 提取 出 的 群集 数 
e eigen_solver='arpack' : 解 特 币值 的 方式 


并 一 张 新 影 像 label im 用 来 展示 spectral clustering 切 开 和 后 的 分 类 结果 


labels = spectral clustering(graph, n clusters-4, eigen solver-'arpack') 
label im - -np.ones(mask.shape) 
label im[mask] - labels 


plt.matshow(img) 
plt.matshow(label im) 


—-Yc k X 
Python source code:plot segmentation toy.py 
http://scikit-learn.org/stable/ downloads/plot segmentation toy.py 
print( doc ) 
# Authors: Emmanuelle Gouillart <emmanuelle.gouillart@normalesup.org> 
# Gael Varoquaux <gael.varoquaux@normalesup.org> 


# License: BSD 3 clause 


import numpy as np 
import matplotlib.pyplot as plt 


from sklearn.feature_extraction import image 


from sklearn.cluster import spectral_clustering 


ima 


SLE 


de: 


TEETER RE TE PETE EE HH HE ETB PETE BF EE EE HH RH HER BH GHHHU RH HE HERE BE HH E HE RH HH 
l - 100 
X, y = np.indices((1, 1)) 


center1 = (28, 24) 
center2 - (40, 50) 
center3 - (67, 58) 
center4 - (24, 70) 


radiusi, radius2, radius3, radius4 = 16, 14, 15, 14 


circlei = (x - center1[0]) ** 
circle2 = (x - center2[0]) ** 
circle3 - (x - center3[0]) ** 


circle4 = (x - center4[0]) ** 


(y - centeri[1]) ** 
(y - center2[1]) ** 
(y - center3[1]) ** 
(y - center4[1]) ** 


< radius1 ** 


« radius2 ** 


« radius3 ** 


1 
Ny NNN 
+ + + + 
VON NS IN 
N N N N 


< radius4 ** 


HAHAHAHAHAHAH TEE ETE PEGE HE ETB PETE HH HH HERB THU PEE EE PE HT RH GHHHH HH HE HE HH 
# 4 circles 

img = circle1 + circle2 + circle3 + circle4 

mask = img.astype(bool) 

img = img.astype(float) 


img += 1 + 0.2 * np.random.randn(*img.shape) 


# Convert the image into a graph with the value of the gradient on the 
# edges. 


graph = image.img_to_graph(img, mask=mask) 


# Take a decreasing function of the gradient: we take it weakly 
# dependent from the gradient the segmentation is close to a voronoi 


graph.data = np.exp(-graph.data / graph.data.std()) 


# Force the solver to be arpack, since amg is numerically 

# unstable on this example 

labels = spectral clustering(graph, n_clusters=4, eigen solver-'arpack') 
label im - -np.ones(mask.shape) 

label im[mask] - labels 


plt.matshow(img) 
plt.matshow(label im) 


THHHBHHHHHBHHHBHHBHHHHBHHHBHHBHHHHBHHBHBHHHHBHHHBHHHHHHBHHBHHHHBHHBHHHHBHHHBHHHHHHBHHMHHHBHHBHHHHBHHHHHHHBHHHHBHBHE 
# 2 circles 

img = circlel + circle2 

mask = img.astype(bool) 

img - img.astype(float) 


img += 1 + 0.2 * np.random.randn(*img.shape) 


graph = image.img_to_graph(img, mask=mask) 


graph.data = np.exp(-graph.data / graph.data.std()) 


labels = spectral clustering(graph, n clusters-2, eigen solver-'arpack') 
label im - -np.ones(mask.shape) 
label im[mask] - labels 


plt.matshow(img) 
plt.matshow(label im) 


plt.show() 


章节 介绍 scikit-learn 所 提供 之 机 器 
手写 数字 辨识 
BREE 


se AAE Datasets 


器 学 习 资 料 集 ， 最 常用 的 主要 有 : 


Datasets 


2: 


机 器 学 习 资 料 集 / 范例 一 : The digits dataset 


http://scikit-learn.org/stable/auto_examples/datasets/plot_digits_last_image.html 


3210 $05] E] 80 JE AF RS EE R REA IESU RETE > E FA A ARR AF D SRA o 
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# 和 这 行 是 在 ipython notebook 的 介面 里 专用 ， 如 果 在 其 他 介面 则 可 以 拿 掉 
%matplotlib inline 


from sklearn import datasets 
import matplotlib.pyplot as plt 


# 载 ^N. 数 F K T & 


digits - datasets.load digits() 


# 画 出 第 一 个 图 片 

plt.figure(i, figsize=(3, 3)) 

plt.imshow(digits.images[-1], cmap-plt.cm.gray r, interpolation='nearest') 
plt.show() 





(二 ) 资 料 集 介 
digits = datasets.load _ digits() 将 一 个 dict 型 别 资料 存 入 digits， 我 们 可 以 用 下 面 程式 码 来 观察 里 面 资 料 


for key,value in digits.items() 
ERY: 
print (key,value. shape) 
except: 


print (key) 


('images', (1797L, 8L, 8L)) 
('data', (1797L, 64L)) 
('target names', (10L, )) 
DESCR 

('target', (1797L,)) 


BR 说 明 
('images', (1797L, 8L, 8L)) 共有 1797 张 影像 ， 影 像 大 小 局 8x8 
(‘data’, (1797L, 64L)) data ?| £A¢8x84948 PRP O41 LEZ — 6 Y 
(target names', (10L,)) 说 明 10 种 分 类 之 对 应 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 
DESCR 资料 之 描述 
(target, (1797L,)) 记录 1797 张 影像 各 自 代 表 那 一 个 数字 


接 下 来 我 们 试 著 以 下 面 指令 来 观察 资料 档 ， 每 张 影像 所 对 照 的 实际 数字 存在 digits.target 变数 中 


images and labels = list(zip(digits.images, digits.target)) 

for index, (image, label) in enumerate(images and labels[:4]): 
plt.subplot(2, 4, index + 1) 
plt.axis('off') 
plt.imshow(image, cmap-plt.cm.gray r, interpolation='nearest') 
plt.title('Training: %i' % label) 


Training: 0 raining: 1 X Training: 2 Training: 


0123 


ERII E AEE 


print(digits['DESCR']) 
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Optical Recognition of Handwritten Digits Data Set 


Data Set Characteristics: 
:Number of Instances: 5620 
:Number of Attributes: 64 
:Attribute Information: 8x8 image of integer pixels in the range 0..16. 
:Missing Attribute Values: None 
:Creator: E. Alpaydin (alpaydin 'Q' boun.edu.tr) 
:Date: July; 1998 


This is a copy of the test set of the UCI ML hand-written digits datasets 


http://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits 


The data set contains images of hand-written digits: 10 classes where 


each class refers to a digit. 


Preprocessing programs made available by NIST were used to extract 
normalized bitmaps of handwritten digits from a preprinted form. From a 
total of 43 people, 30 contributed to the training set and different 13 
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of 
4x4 and the number of on pixels are counted in each block. This generates 
an input matrix of 8x8 where each element is an integer in the range 
0..16. This reduces dimensionality and gives invariance to small 


distortions. 


For info on NIST preprocessing routines, see M. D. Garris, J. L. Blue, G. 
T. Candela, D. L. Dimmick, J. Geist, P. J. Grother, S. A. Janet, and C. 
L. Wilson, NIST Form-Based Handprint Recognition System, NISTIR 5469, 
1994. 


References 

- C. Kaynak (1995) Methods of Combining Multiple Classifiers and Their 
Applications to Handwritten Digit Recognition, MSc Thesis, Institute of 
Graduate Studies in Science and Engineering, Bogazici University. 

- E. Alpaydin, C. Kaynak (1998) Cascading Classifiers, Kybernetika. 

- Ken Tang and Ponnuthurai N. Suganthan and Xi Yao and A. Kai Qin. 
Linear dimensionalityreduction using relevance weighted LDA. School of 
Electrical and Electronic Engineering Nanyang Technological University. 
2005. 

- Claudio Gentile. A New Approximate Maximal Margin Classification 
Algorithm. NIPS. 2000. 


这 个 描述 档 说 明了 这 个 资料 集 是 在 1998 年 时 建立 的 ， 由 E. Alpaydin, C. Kaynak * Department of Computer 
Engineering Bogazici University, Istanbul Turkey @ 24 o RFA) SIH R AASMAA > — BAA RAF 32x32 
的 点 但 影 像 ， 之 后 经 运算 处 理 形成 8x8 影 像 ， 其 中 灰 阶 记录 的 范围 则 局 0~16 的 整数 。 


(=) 6A $261 


Ex 1: The digits + E 3t FHR 


在 整个 scikit-learn 应 用 范例 中 ， 有 以 下 狼人 个 范例 是 利用 了 这 组 手写 关 识 资料 集 。 这 个 资料 集 的 使 用 最 适合 机 器 学 习 初 学 者 来 
理解 分 类 法 的 原理 以 及 其 进 阶 应 用 


e 分 类 法 Classification 
o Ex 1: Recognizing hand-written digits 
e 特征 选择 Feature Selection 
o Ex 2: Recursive Feature Elimination 
o Ex3: Recursive Feature Elimination with Cross-Validation 


102 


Datasets 


2 € sp] oR A i Ax - c 
Be aS HE HAT AR] $60] =: The iris dataset 
http://scikit-learn.org/stable/auto examples/datasets/plot iris dataset.html 


3i | $06) E] 82 RIS REI Ul A EP iris BRIE RAE 


(一 ) 引 入 函 式 库 及 内 建 手 写 数 字 资 料 库 


# 和 这 行 是 在 ipython notebook 的 介面 里 专用 ， 如 果 在 其 他 介面 则 可 以 拿 掉 


%matplotlib inline 


import matplotlib.pyplot as plt 
from mpl_toolkits.mplot3d import Axes3D 
from sklearn import datasets 


from sklearn.decomposition import PCA 


# import some data to play with 
iris = datasets.load_iris() 
X = iris.data[:, :2] # we only take the first two features. 


Y = iris.target 


x min, x max = X[:, 0].min() - .5, X[:, 0].max() + .5 


y min, y max = X[:, i].min() - .5, X[:, 1].max() + .5 


plt.figure(2, figsize-(8, 6)) 

plt.clf() 

# Plot the training points 

plt.scatter(X[:, 0], X[:, 1], c=Y, cmap-plt.cm.Paired) 
plt.xlabel('Sepal length') 

plt.ylabel('Sepal width') 


plt.xlim(x min, x max) 
plt.ylim(y min, y max) 
plt.xticks(()) 
plt.yticks(()) 


Sepal width 





Sepal length 


(二 ) 资 料 集 介绍 
iris = datasets.load iris() 将 一 个 dict 型 别 资 料 存 入 iris， 我 们 可 以 用 下 面 程式 码 来 观察 详 面 资料 


for key,value in iris.items() : 
ERY: 
print (key,value. shape) 
except: 
print (key) 


print(iris['feature_names']) 


('target_names', (3L,)) 共有 三 种 说 尾 花 setosa, versicolor, virginica 

('data', (150L, 4L)) fH 1503€ ERE > Aem EUR EE 

('target', (150L,)) i$150 € FAS eM — 18 E BiH 

DESCR 资料 之 描述 

feature_names 四 个 特征 代表 的 意义 ， 分 别 遍 FH (sepal)Z $t 35 V/A 168 (petal) z- RIM 


局 了 用 视 党 化 方式 呈现 这 个 资料 集 ， 下 面 程式 码 首先 使 用 PCA 演 算法 将 资料 维度 降低 至 3 


X reduced = PCA(n components-3).fit transform(iris.data) 


接 下 来 将 三 个 维度 的 资料 立 用 mpl toolkits.mplot3d.Axes3D 建立 三 维 给 图 空间 ， 状 利用 scatter 以 三 个 特征 资料 数 
值 当成 座 标 给 入 空间 ， 状 以 三 种 iris 之 数值 Y， 来 指定 资料 点 的 颜色。 我 们 可 以 看 出 三 种 iris 中 ， 有 一 种 明显 的 可 以 与 其 他 有 两 种 
E |» m5? ey FEB $ 259] £8 Ee Hl o 


Ex 3: The iris ££ 6 HI S 


# To getter a better understanding of interaction of the dimensions 

4 plot the first three PCA dimensions 

fig = plt.figure(i, figsize=(8, 6)) 

ax = Axes3D(fig, elev--150, azim=110) 

ax.scatter(X reduced[:, 9], X_reduced[:, 1], X reduced[:, 2], c-Y, 
cmap=plt.cm.Paired) 

ax.set_title("First three PCA directions") 

ax.set_xlabel("1st eigenvector") 

ax.w_xaxis.set_ticklabels([]) 

ax.set_ylabel("2nd eigenvector") 

ax.w_yaxis.set_ticklabels([]) 

ax.set_zlabel("3rd eigenvector") 


ax.w_zaxis.set_ticklabels([]) 


plt.show() 


First three PCA directions 


jopar! pIE 





1st eigenvectot 


# 接 著 我 们 当 试 
print(iris['DESCR']) 


MiB 





Iris Plants Database 


Data Set Characteristics: 


:Number of Instances: 150 (50 in each of three classes) 


:Number of Attributes: 4 numeric, predictive attributes and the class 
:Attribute Information: 


- sepal length in cm 

- sepal width in cm 

- petal length in cm 

- petal width in cm 

- class: 
- Iris-Setosa 
- Iris-Versicolour 
- Iris-Virginica 


:Summary Statistics: 


Min Max Mean SD Class Correlation 
sepal length: 4.3 5.84 0.83 0.7826 
sepal width: 2.0 3.05 0.43 -0.4194 
petal length: 1.0 3.76 1.76 0.9490 (high!) 
petal width: 0.1 1.20 0.76 0.9565 (high!) 


:Missing Attribute Values: None 

:Class Distribution: 33.3% for each of 3 classes. 
:Creator: R.A. Fisher 

:Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov) 
:Date: July, 1988 


This is a copy of UCI ML iris datasets. 


http://archive.ics.uci.edu/ml/datasets/Iris 


The famous Iris database, first used by Sir R.A Fisher 


This is perhaps the best known database to be found in the 

pattern recognition literature.  Fisher's paper is a classic in the field and 
is referenced frequently to this day. (See Duda & Hart, for example.) The 
data set contains 3 classes of 50 instances each, where each class refers to a 
type of iris plant. One class is linearly separable from the other 2; the 


latter are NOT linearly separable from each other. 


References 

- Fisher,R.A. "The use of multiple measurements in taxonomic problems" 
Annual Eugenics, 7, Part II, 179-188 (1936); also in "Contributions to 
Mathematical Statistics" (John Wiley, NY, 1950). 

- Duda,R.O., & Hart,P.E. (1973) Pattern Classification and Scene Analysis. 
(Q327.D83) John Wiley & Sons. ISBN 0-471-22361-1. See page 218. 

- Dasarathy, B.V. (1980) "Nosing Around the Neighborhood: A New System 
Structure and Classification Rule for Recognition in Partially Exposed 
Environments". IEEE Transactions on Pattern Analysis and Machine 
Intelligence, Vol. PAMI-2, No. 1, 67-71. 

- Gates, G.W. (1972) "The Reduced Nearest Neighbor Rule". IEEE Transactions 
on Information Theory, May 1972, 431-433. 

- See also: 1988 MLC Proceedings, 54-64. Cheeseman et al"s AUTOCLASS II 
conceptual clustering system finds 3 classes in the data. 


- Many, many more 


这 个 描述 档 说 明了 这 个 资料 集 是 在 1936 年 时 由 Fisher 建 立 ， 局 图 形 识别 领域 之 重要 经 典范 例 。 共 例 用 四 种 特 微 来 分 类 三 种 敬 
尾 花 


(三 ) 应 用 范例 介绍 
在 整个 scikit-learn 应 用 范例 中 ， 有 以 下 狼人 个 范例 是 利用 了 这 组 iris 资 料 集 。 


e 分 类 法 Classification 
o EX 3: Plot classification probability 
e 44324 Feature Selection 
o Ex5: Test with permutations the significance of a classification score 
o Ex6: Univaniate Feature Selection 
e 通用 范例 General Examples 
o Ex2: Concatenating multiple feature extraction methods 


应 用 气 例 Applications 


4 u$ 2-31: Property value prediction 


此 档案 使 用 scikit-learn 机 器 学 





(一 ) 引 入 函 式 库 及 内 建 波士顿 


引入 之 函 式 库 如 下 


sklearn.datasets : 
Sklearn.cross val predict 
sklearn.linear model : 线性 分 析 之 模 组 
FRG SUE 


FON = 


matplotlib.pyplot : 


from sklearn import datasets 


A AAA linear regression 演 算法 ， 


1 资料 集 : 波士顿 房产 

2. 特征 : 房地产 客观 数据 ， 如 年 份 、 平 面 大 小 

3. 预测 目标 : — 

4. ee : 线性 

5. 探讨 重点 : 10 等 交 fold Cross-Validation) k 4t t 
6. ey : sklearn.cross validation.c 


B] AREA GRE AHAS 
: 使 用 交叉 验证 用 来 评估 辨识 准确 度 


来 达成 波士顿 房地产 价钱 预测 


测试 资料 以 及 预测 值 的 关公 


ross val predict ; joblib.dump ; joblib.load 


B $E A Je 


ee HA E 


from sklearn.cross_validation import cross_val_predict 


from sklearn import linear_model 


import matplotlib.pyplot as plt 


lr = linear model.LinearRegression() 
# The boston dataset 
boston - datasets.load boston() 


y - boston.target 


使 用 linear model.LinearRegression() 将 线性 过 
资料 的 预测 数值 匿 入 到 y 。 使 用 MEI m aMNISTM: 将 资料 存 入 ， 


资料 的 内 容 。 


(‘data’, (506, 13)) 
(feature names', (13,)) 
('target', (506,)) 


DESCR 


说 明 
房地产 的 资料 集 ， 共 506 笔 房产 13 个 特征 
房地产 的 特征 名 
E fi El A 
资料 之 描述 


(—) cross val predict 的 使 用 


Sklearn.cross validation.cross val predict (estimator, X, y=None, cv=None, n jobsz1, verbose=0, 


fit params-None, pre dispatch-'2*n jobs") 


XÉRS S RAE 
集 ， 另 外 一 等 分 则 高 测试 集 。 


predicted = cross val predict(lr, 


y 局 回 印 目标 ，CV 局 交 又 验证 时 资料 切 分 的 依据 ， 范 例 局 


则 将 资料 切 分 局 10 等 分 


boston.data, y, cv=10) 


， 以 其 中 9 等 分 


分 析 演 算法 引入 到 lr ° 使 用 datasets.target 将 士 顿 房地产 
boston 局 一 个 dict 型 别 资料 ， 我 们 看 一 下 


Bon ie 


(三 ) 使 用 joblib.dump Æ 87835 


from sklearn.externals import joblib 


joblib.dump(lr,"./lr machine.pk1l") 


使 用 joblib.dump JÉ dE fg TA BS E k Á pkl o 


(v9) 5 ZUR 2-38 


XE lr-joblib.load("./lr machine.pkl") #&pkl#% A É — (linear regressionfR 2] S. 1r 。 接 著 使 用 波士顿 房 
35 & BAR (boston.data) > VL TR 2] A (y) Kak AIr lr.fit(boston.data, y) ° mR? 1k 
用 predict y-lr.predict(boston.data[2]) 预测 第 三 笔 资料 的 价格 ， 状 将 结果 存 入 predicted y 5€ 3C» 


lr-joblib.load("./lr machine.pkl") 
lr.fit(boston.data, y) 
predict y-lr.predict(boston.data[2]) 


(A)R BiLTRURL AER ETE ELE ET] 


XM AAR R > YAA SAAR o HEB) IR BH yh AUR JR RAE) © 
x Bb By JF Wee = 7B BAR AY TAB SR o 


plt.scatter(predicted, y, s=2) 

plt.plot(predict y, predict y, 'ro') 

plt.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=2) 
plt.xlabel('Predicted') 

plt.ylabel('Measured') 








Ü L 1 
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%matplotlib inline 

from sklearn import datasets 

from sklearn.cross_validation import cross_val_predict 
from sklearn import linear_model 

import matplotlib.pyplot as plt 


lr = linear model.LinearRegression() 

boston - datasets.load boston() 

y - boston.target 

# cross val predict returns an array of the same size as `y` where each entry 
# is a prediction obtained by cross validated: 

predicted = cross val predict(lr, boston.data, y, cv=10) 


from sklearn.externals import joblib 


joblib.dump(lr,"./lr machine.pkl") 

lr-zjoblib.load("./lr machine.pk1l") 

lr.fit(boston.data, y) 

predict y-lr.predict(boston.data[2]) 
plt.scatter(predicted,y,s-2) 

plt.plot(predict y, predict y, 'ro') 

plt.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=2) 
plt.xlabel('Predicted') 

plt.ylabel('Measured') 


支持 向 量 机 回电 分 析 : Property value prediction 


此 档案 使 用 scikit-learn 机 器 学 习 套 件 里 的 SVR 演 算法 ， 来 达成 波士顿 房地产 价钱 预测 


(一 ) 引 入 函 式 库 及 内 建 波士顿 房地产 资料 诺 
引入 之 函 式 库 如 下 


1. sklearn.datasets : A REA AEZ X 38: E UTER 
2. sklearn.SVR : 支持 向 量 机 回 晤 分 析 之 演算 法 
3. matplotlib.pyplot : 用 来 绘 投影 像 


from sklearn import datasets 
from sklearn.svm import SVR 


import matplotlib.pyplot as plt 
boston - datasets.load boston() 


X-boston.data 
y - boston.target 


使 用 datasets.load boston() 将 资料 存 入 至 boston ° 使 用 datasets.data Jf 4-458356 TA BR TH (data)IÉ 
入 到 x ° M datasets.target Jf 38236 & ETE HRRISCIA EA 9] y 。 高 一 个 dict 型 别 资料 ， 我 们 看 一 下 资料 的 内 


容 。 


(—) SVR 的 使 用 


sklearn.svm.SVR (kernel-'rbf', degree=3, gamma-'auto', coef0=0.0, tol=0.001, C=1.0, epsilon=0.1, shrinking=True, 
cache_size=200, verbose=False, max_iter=-1) 


clf = SVR(kernel='rbf', C-1e3, gamma=0.1) 
clf.fit(X, y) 


使 用 clf = SVR(kernel='rbf', C-1e3, gamma-0.1) °> JSVRUE JL Slcf» LARCSVRBAAHAR o d 
用 clf.fit(X, y) ， 用 波士顿 房地产 数据 (boston.data) 以 及 预测 目标 (y) 来 训练 预测 机 clf 


(三 ) 使 用 joblib.dump Æ 8789135 


from sklearn.externals import joblib 
joblib.dump(clf,"./machine SVR.pkl") 


使 用 joblib.dump 将 SVR 预 测 器 碟 出 高 pkl 档 。 


(四 ) 训 练 以 及 分 类 


接著 使 用 clf-joblib.load("./machine SVR.pkl") 将 pkl 档 汇 入 高 一 个 SVR 预 测 器 clf 。 接 闭 使 用 波士顿 房地产 数据 
(boston.data)， 以 及 预测 目标 (y) 来 训练 预测 机 clIf clf.fit(boston.data, y) 。 最 后， 使 
用 predict y-clf.predict(boston.data[2]) 预测 第 三 笔 资料 的 价格 ， 凑 将 结果 存 入 predicted y 5&3 ° 


clf-joblib.load("./machine SVR.pkl") 
clf.fit(boston.data, y) 
predict y-clf.predict(boston.data[2]) 


(五 ) 使 用 score 计算 准确 率 


先 用 predict-clf.predict(X) 将 所 有 波士顿 房地产 数据 丢 入 clf 预 测 机 预测 ， 状 将 所 预测 出 的 结果 存 入 predict ° dX 
使 用 clf.score(X, y) 来 计算 准确 这，score=1 启 最 理想 情况 ， 本 范例 中 score =0.99988275378631286 


predict-clf.predict(X) 
clf.score(X, y) 


(六 ) 绘 出 预测 结果 与 实际 目标 差 县 
X 轴 局 预测 结果 ，Y 轴 遍 回 外 目标 。 疮 划 出 一 条 斜 率 =1 的 理想 曲线 (用 虚线 标示 )。 红 点 局 房地产 第 三 项 数据 的 预测 结果 


因 高 使 用 clf 的 准确 率 很 高 ， 所 以 预测 结果 与 回 晤 目标 化 乎 一 样 ，scatter 的 点 会 羧 乎 都 在 理想 曲线 上 o 


plt.scatter(predict,y, s-2) 

plt.plot(predict y, predict y, 'ro') 

plt.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=2) 
plt.xlabel('Predicted') 

plt.ylabel('Measured') 
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%matplotlib inline 
from sklearn import datasets 
from sklearn.svm import SVR 


import matplotlib.pyplot as plt 


boston - datasets.load boston() 
X-boston.data 

y - boston.target 

clf = SVR(kernel='rbf', C-1e3, gamma=0.1) 
clf.fit(X, y) 

from sklearn.externals import joblib 
joblib.dump(clf,"./machine SVR.pkl") 
clf-joblib.load("./machine SVR.pkl") 
clf.fit(boston.data, y) 

predict yz-clf.predict(boston.data[2]) 
predict-clf.predict(X) 

clf.score(X, y) 
plt.scatter(predict,y,s-2) 
plt.plot(predict y, predict y, 'ro') 


plt.plot([y.min(), y.max()], [y.min(), y.max()], 


plt.xlabel('Predicted') 
plt.ylabel('Measured') 


'k--', lw=2) 


Multi-layer Perceptron( 2 Æ &# &) 


http://scikit-learn.org/stable/modules/neural networks supervised.html 


Multi-layer Perceptron (MLP):MLP É —£$ E E A! RK > Hw f( y R^moR^o. ，m 是 输入 时 的 维度 、0 是 输出 时 的 维 
度 ， 藉 由 输入 特征 $$X=x 1x 2, x m$$ 和 目标 值 Y， 此 算法 将 可 以 使 用 非 线性 近似 将 资料 分 类 或 进行 过 晤 运算 。MLP 可 
以 在 输入 属 与 输出 属 中 间 插 入 许多 非 线性 届 ， 如 图 1 所 示 :， 和 这 是 有 一 导 隐 藏 属 的 网 路 。 


Bias 


Features 


(X) 





Output 


E] 1: 2 — /& T 38$ MLP 
RAEI ARV A > BEARS {x_ilx_1,Xx_2,.,X_m} 代 表 输 入 的 特征 。 每 个 神经 元 在 隐藏 届 会 根据 前 一 层 的 输出 
的 结果 ， 做 高 此 届 的 输入 $$w_1x_1+w_2x_2+...+W_mx_mg$$ 在 将 名 和 使 用 非 线性 的 活化 函数 做 fl:):R 一 RR 转换 ， 例 





如 :hyperbolic tan function、Sigmoid function， 最 右 跟 那 履 启 输出 必 ， 会 接收 最 后 的 隐藏 居 的 输出 在 转换 一 次 成 输出 值 。 


intercepts É Jt # sare > HE EHETE A GL Sry ELS TE: S coefs Wb feSintercepts $ ° coefs 此 矩阵 中 第 i 个 指标 表示 第 $i$ 居 与 
$i-1$/8 48 E > intercepts 4i d&(bias)4E RE > HOSE IP BMA AE RE Ao E i18 $47 AE AA e 








MLP 35: 1. 有 能 力 建立 非 线性 的 模型 2. 可 以 使 用 $partial_fit$ 建 立 real-time 模 型 MLP 缺 点 : 1. A% U AARAA X8 18 E BUR 
小 值 ， 使 用 不 同 的 初始 权重 ， 会 让 验证 时 的 准确 率 浮 动 2.MLP 模 型 需要 调整 每 届 神 经 元 数 、 届 数 、 旱 代 次 数 3.MLP 对 於 特征 
的 预先 处 理 很 敏感 ， 建 议 将 特征 X 都 尺度 降 至 [0,1] 或 [-1,+1] 或 让 特 币值 降 至 平均 值 等 从 0 与 人 释 县 数 等 从 1 的 数字 区 间 

MLP 分 类 器 


使 用 MLP 训 张 需要 使 用 输入 两 种 了 别 列 ， 一 个 是 特征 X 降 列 ，X 障 列 包 含 (样本 数 ， 特 征 数 )， 另 一 个 是 Y 向 量 包含 目标 值 (分 类 标 
$&) Fir 4c IMLP2-28 R FHM © 


(—) AA AR 

from sklearn.neural network import MLPClassifier: 4] 3E MLP #4 & 

(二 ) 建 立 模 所 资料 与 设 定 分 类 器 参数 

建立 氛 有 三 种 特征 的 三 笔 资 料 X=[[0., 0.,0.], [1., 1.,1.],[2., 2.,2.]] 将 三 笔 资料 的 分 类 标 上 y = [0, 1, 2] 设 定 分 类 器 :最 佳 化 参数 


的 演算 法 ，alpha 值 ， 隐 藏 属 的 属 数 与 每 层 神经 元 数 : hidden_layer_sizes=(5,3) 表 示 隐 藏 必 有 两 属 第 一 届 高 五 个 神经 元 ， 第 二 
属 高 三 个 神经 元 clf = MLPClassifier(solver='Ibfgs', alpha=1e-5, hidden layer sizes-(5,3), random state-1) 


(=) al AR AAS HR Se FA 
If EH AUDA > TARA clf.fit(X, y) 


将 要 预测 的 资料 丢人 进 网 路 预测 clf predict([[2., 2., 2], 1., -2.,0.],[1., 1.,0.]]) 预测 结果 :array([2, 0, 1]) 结果 表示 [2., 2., 2.] 遍 第 三 
类 ，[-1., -2.,0.] 启 第 一 类 ，[1., 1.,0.] 遍 第 二 类 


完整 程式 码 : 


from sklearn.neural network import MLPClassifier 


x 
Il 


E Te ee e E e ESTEE 2 0 2 DH] 


y = [9, 1, 2] 


clf = MLPClassifier(solver='lbfgs', alpha-ie-5, 


hidden_layer_sizes=(5,3), random_state=1) 


clf.fit(X, y) 


Lr 


cir predict( (fon. e 221, 53259 5200 B5 1712 a) 


Visualization of MLP weights on MNIST 


http://scikit-learn.org/stable/auto_examples/neural_networks/plot_mnist_filters.html#sphx-glr-auto-examples-neural- 
networks-plot-mnist-filters-py 


此 范例 将 使 用 MNIST dataset ail ék #44 f & 9k MLPClassifier > WAHA P AIK H 408 28*28 > HAH — 8 t ABP A ALA 
1$ 741 28*28 4045 E > Hi AS RAE SR AA OD ER d HH E 28280 MRA THA EHE RE BAH 
神经 元 的 权重 多 寒 。 


(Cl i UR 


1.matplotlib.pyplot: A RAF R %1% 2.sklearn.datasets: 引 入 内 建 的 手写 数字 资料 库 3.sklearn.neural_network: 引 入 类 神经 网 路 
的 套件 


import matplotlib.pyplot as plt 

from sklearn.datasets import fetch mldata 

from sklearn.neural network import MLPClassifier 
mnist = fetch mldata("MNIST original") 


(— y A S SAR A AE 


H 将 灰 阶 影像 降 尺 度 降 到 [9,1] 

X, y = mnist.data / 255., mnist.target 
X train, X test = X[:60000], X[60000:] 
y[:60000], y[60090:] 


y train, y test 


(ZJARA R ARRIRA ied d Sp 





#hidden_layer_sizes=(50) st 2 > RASOMMEL > max_iter=10 2 Xa] R10 
mlp = MLPClassifier(hidden layer sizes-(50), max iter-10, alpha=ie-4, 
solver-'sgd', verbose-10, tol=ie-4, random state-!, 


learning rate init-.1i) 





的 权重 图 ， 黑 色 表示 负 的 权重 ， 越 深 色 表示 





fig, axes = plt.subplots(4, 4) 
# use global min / max to ensure all weights are shown on the same scale 
vmin, vmax = mlp.coefs [0].min(), mlp.coefs [0].max() 
for coef, ax in zip(mlp.coefs [9].T, axes.ravel()): 
ax.matshow(coef.reshape(28, 28), cmap-plt.cm.gray, vmin=.5 * vmin, 
vmax-.5 * vmax) 
ax.set xticks(()) 


ax.set yticks(()) 


plt.show() 


Ex 1: Visualization of MLP weights on MNIST 





E 1:16 18 jv 4 5 ah RHE E T 


Iteration 1, loss - 0.32212731 
Iteration 2, loss - 0.15738787 
Iteration 3, loss - 0.11647274 
Iteration 4, loss - 0.09631113 
Iteration 5, loss = 0.08074513 
Iteration 6, loss = 0.07163224 
Iteration 7, loss - 0.06351392 
Iteration 8, loss - 0.05694146 
Iteration 9, loss - 0.05213487 


Iteration 10, loss = 0.04708320 


2: AX ST loss T TE 


(四 ) 完 整 程式 码 


print( doc ) 


import matplotlib.pyplot as plt 
from sklearn.datasets import fetch mldata 


from sklearn.neural network import MLPClassifier 


mnist = fetch mldata("MNIST original") 


X, y = mnist.data / 255., mnist.target 
X train, X test = X[:60000], X[60000:] 
y train, y test = y[:60000], y[60000:] 


mlp = MLPClassifier(hidden layer sizes-(50), max iter-10, alpha=ie-4, 
solver-'sgd', verbose=10, tol-ie-4, random state-!, 


learning rate init-.1) 


mlp.fit(X train, y train) 
print("Training set score: %f" % mlp.score(X train, y train)) 


print("Test set score: %f" 96 mlp.score(X test, y test)) 


fig, axes = plt.subplots(4, 4) 


vmin, vmax = mlp.coefs [0].min(), mlp.coefs [0].max() 
for coef, ax in zip(mlp.coefs [9].T, axes.ravel()): 
ax.matshow(coef.reshape(28, 28), cmap=plt.cm.gray, vmin=.5 * vmin, 
vmax=.5 * vmax) 
ax.set_xticks(()) 


ax.set_yticks(()) 


plt.show() 


Restricted Boltzmann Machine features for digit classification 


http://scikit-learn.org/stable/auto_examples/neural_networks/plot_rbm_logistic_classification.html#sphx-glr-auto-examples- 
neural-networks-plot-rbm-logistic-classification-py 


3 £0. 6 AV 4k MA BernoulliRBM44 BRERA 7E. > RHF ZRPARG] KHER > (FF) RH AK VRERA CBernoulliRBM 
7) 将 可 以 对 数据 做 有 效 的 非 线性 BURR Eo ALT LARA SAR RE 16 beo AA A 0 PMLA ET — 
WEES > VAG de BS aR AA > BAR AH 85 HB EAE grid search 演 算法 ， 但 此 训练 太 耗 费时 间 ， 因 此 不 再 这 重 


现 ，。 此 范例 结果 将 比较 ，1. 使 用 原本 的 像素 值 做 的 远 辑 回 银 2.49 FA BernoulliRBM CE ck XC 65 3 38: 1 P$ 结果 将 显示 :使 用 
BernoulliRBM 将 可 以 提升 分 类 的 准确 度 。 





(一 ) 引 入 函 式 库 与 资料 
from _ future _ import print function 
print( doc ) 


# Authors: Yann N. Dauphin, Vlad Niculae, Gabriel Synnaeve 


# License: BSD 


import numpy as np 


import matplotlib.pyplot as plt 


from scipy.ndimage import convolve 

from sklearn import linear model, datasets, metrics 
from sklearn.model selection import train test split 
from sklearn.neural network import BernoulliRBM 


from sklearn.pipeline import Pipeline 


(=) AA ATE RAH > EHR RA 


def nudge dataset(X, Y): 


HE 8] BA AAR AGA TS 0 PHMEAG PREY FS o ARES 2 HMR AA RRA AR RR i 


direction_vectors 


[[9， 
[9, 
[9, 


[[6, 
[1, 
[9, 


[[6, 
[9, 
[9, 


[[9， 
[9, 


i, 0], 
9, 9], 
9, 0]], 


9, 0], 
9, 0], 
9, 0]], 


9, 0], 
9, 1], 
9, 0]], 


9, 9], 
9, 9], 


[ 


[0, 1, 0]]] 


shift = lambda x, w: convolve(x.reshape((8, 8)), mode='constant', 


weights-w).ravel() 


X = np.concatenate([X] + 
[np.apply along axis(shift, 1, X, vector) 
for vector in direction vectors]) 

Y = np.concatenate([Y for _ in range(5)], axis=0) 


return X, Y 


# Load Data 
digits = datasets.load_digits() 

Ufdoat325) 
X, Y = nudge dataset(X, digits.target) 


X = (X - np.nin(X, 0)) / (np.max(X, 0) + 0.0001) # # 


X = np.asarray(digits.data, 





EHERUE ESI O, 1] 


xS 


11 3| 成 





f= hy omy] Sh 4E 
集 锅 测试 集 


X train, X test, Y train, Y test = train test split(X, Y, 
test size-0.2, 


random state-6) 


# Models we will use 


logistic - linear model.LogisticRegression() 


rbm = BernoulliRBM(random_state=0, verbose=True) 


classifier = Pipeline(steps-[('rbm', rbm), ('logistic', logistic)]) 


> AL 


设 定 模型 参数 与 训练 模型 


(= 


Ex 2: Restricted Boltzmann Machine features for digit classification 





EE 需 使 用 cross-validation 去 比较 

# 此 参数 是 使 用 GridSearchCV 找 出 来 的 .Here we are not performing cross-validation to save time. 
#GridSratch 就 是 将 参数 设 定好 ， 跑 过 全 部 参数 后 去 找 结果 最 好 的 一 组 参数 

rbm.learning rate = 0.06 

rbm.n iter - 20 

&.n components = 100 表示 隐藏 届 单 元 遍 109， 即 表示 莘 取 出 109 个 特征 ， FARRAR 2 PORE AR mo ARGENT NI 
rbm.n_components = 100 

logistic.C = 6000.0 


# Training RBM-Logistic Pipeline 
classifier.fit(X train, Y train) 


# Training Logistic regression 
logistic classifier = linear model.LogisticRegression(C-100.0) 
logistic classifier.fit(X train, Y train) 


(四 ) 评 估 模 型 的 分 辩 准 确 率 


print() 
print("Logistic regression using RBM features:\n%s\n" 96 ( 
metrics.classification report( 
Y test, 
classifier.predict(X test)))) 


print("Logistic regression using raw pixel features: Nn?ssNn" 96 ( 
metrics.classification report( 
Y_test, 
logistic classifier.predict(X test)))) 


122 


Ex 2: Restricted Boltzmann Machine features for digit classification 


Logistic regression using RBM features: 


precision 


WOON AU BWNHE © 
VNVODVDAVAVOAOOC OO 


© 


avg / total 


Logistic regression using raw pixel features: 


599 
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precision 


图 1: 使 用 RBM 演 算法 后 准确 率 局 0.95 


recall f1-score 
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Logistic regression using raw pixel features: 
recall fi1-score 


precision 
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plt.figure(figsize-(4.2, 4)) 
for i, comp in enumerate(rbm.components ): 
plt.subplot(10, 10, i + 1) 
plt.imshow(comp.reshape((8, 8)), cmap-plt.cm.gray r, 
interpolation-'nearest') 
plt.xticks(()) 
plt.yticks(()) 
plt.suptitle('100 components extracted by RBM', fontsize=16) 
plt.subplots adjust(0.08, 0.02, 0.92, 0.85, 0.08, 0.23) 


plt.show() 


100 components extracted by RBM 
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图 3: 使 用 RBM 演 算法 ， 寻 找 出 来 的 特征 


from _ future import print function 


print( doc ) 


# Authors: Yann N. Dauphin, Vlad Niculae, Gabriel Synnaeve 
# License: BSD 


import numpy as np 


import matplotlib.pyplot as plt 


from 
from 
from 
from 


from 


IHHHHHHHHBHHHHHHHHHHBHHHHHHHHHHHBHHHHHHHHHHHHHHHHBHHHHHHHHHHHHHHHBBHHBHHHHHHHHBHHHBHN HN S 


# Se 


scipy.ndimage import convolve 


sklearn 
sklearn 
sklearn 


sklearn 


tting up 


import linear_model, datasets, metrics 


.model selection import train test split 


.neural network import BernoulliRBM 


.pipeline import Pipeline 


def nudge dataset(X, Y): 


# Lo 


This produces a dataset 5 times bigger than the original one, 


by moving the 8x8 images in X around by 1px to left, 


direction vectors 


[[6, 
[9, 
[9, 


[[6, 


[[6, 


[[9， 


Shift = 


x 
ll 


Y = np.concatenate([Y for 


return X, Y 


ad Data 


1, 
9, 
9, 


© 


9], 
9], 
9]]， 


0], 
0], 
9]]， 


9], 
1], 


9]]， 


9], 
9], 
611] 


[ 


lambda x, w: convolve(x.reshape((8, 8)), mode='constant', 


weights-w).ravel() 


np.concatenate([X] + 


[np.apply along axis(shift, 1, X, vector) 
for vector in direction vectors]) 


in range(5)], axis=0) 


digits - datasets.load digits() 


» 
X, Y 
yos 


np.asarray(digits.data, 'float32') 


= nudge_dataset(X, digits.target) 
(X - np.min(X, 0)) / (np.max(X, 0) + 0.0001) # 0-1 scaling 


X train, X test, Y train, Y test - train test split(X, Y, 


test size-0.2, 


random state-6) 


right, down, 





] Boltzmann Machine 





# Models we will use 
logistic - linear model.LogisticRegression() 
rbm = BernoulliRBM(random state-0, verbose=True) 


classifier = Pipeline(steps=[('rbm', rbm), ('logistic', logistic)]) 


IHHHHHHHHBHHHHHHHHHBHHHHHHHHHHHBHHHHHHHHHHHHHHHHBHHHHHHHH HH HH BBRHBHBHHHHHHHHBHHBHHHHHNNN S 


# Training 


# Hyper-parameters. These were set by cross-validation, 

# using a GridSearchCV. Here we are not performing cross-validation to 
# save time. 

rbm.learning rate = 0.06 

rbm.n iter = 20 

# More components tend to give better prediction performance, but larger 
# fitting time 

rbm.n_components = 100 

logistic.C = 6000.0 


# Training RBM-Logistic Pipeline 


classifier.fit(X train, Y train) 


# Training Logistic regression 
logistic classifier = linear model.LogisticRegression(C-100.0) 


logistic classifier.fit(X train, Y train) 


THHHHBHHHHBHHHHBH HB HH DB B BH B HH DB B HH HH HH HH HH HH HH BB EH HH BH HH HE B B B ea 
# Evaluation 


print() 
print("Logistic regression using RBM features:\n%s\n" 96 ( 
metrics.classification report( 
Y-Lest, 
classifier.predict(X test)))) 


print("Logistic regression using raw pixel features: Nn?ssNn" 96 ( 
metrics.classification report( 
Y test, 
logistic classifier.predict(X test)))) 


TEEPE TERETE PETE EE HH HER HH HH HH E HER BH BEE EE RH HE HERE E HH HE E HE RH HH 
# Plotting 


plt.figure(figsize=(4.2, 4)) 
for i, comp in enumerate(rbm.components ): 
plt.subplot(10, 10, i + 1) 
plt.imshow(comp.reshape((8, 8)), cmap-plt.cm.gray r, 
interpolation-'nearest') 
plt.xticks(()) 
plt.yticks(()) 
plt.suptitle('100 components extracted by RBM', fontsize=16) 
plt.subplots adjust(0.08, 0.02, 0.92, 0.85, 0.08, 0.23) 


Ex 2: Restricted Boltzmann Machine features for digit classification 


plt.show() 
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Compare Stochastic learning strategies for MLPClassifier 


http://scikit-learn.org/stable/auto examples/neural networks/plot mlp training curves.htmlzsphx-glr-auto-examples- 
neural-networks-plot-mlp-training-curves-py 


363001 EA RAA A aek E 9 (optimizer) Floss curves) S16 > Iek R% 6,34SGD tAdam ° 


1.Stochastic Gradient Descent(SGD): 


Stochastic Gradient Descent(SGD) Á Gradient Descent(GD)4 rx È > Æ GD3? X 44 ^. 4-35 AY training dataset， 根 据 累 积 的 


loss 才 更 新 一 次 权重 ， 因 此 收 伍 速度 很 慢 ，SGD 随 机 抽 一 笔 training sample > REH loss 更 新 权重 。 
2.Momentum: 


Momentum 是 高 了 以 防 GD 类 的 方法 陷入 局 部 最 小 值 而 衍生 的 方法 ， 可 以 利用 momentum 降 低 陷 入 local minimum 4) i% # > tb 
方法 是 参考 物理 学 动量 的 观念 。 


看 图 1 蓝 色 点 的 位 置 ， 当 GD 类 的 方法 陷入 局 部 最 小 值 时 ， 因 局 gd=0 将 会 使 电脑 认 局 此 处 局 最 小 值 ， 於 是 遍 了 减少 此 现象 ， 每 
次 更 新 时 会 将 上 次 更 新 权重 的 一 部 分 拿 来 加 入 此 次 更 新 。 如 红色 箭头 所 示 ， 将 有 机 会 翻 过 local minimum » 


L(6) 





Ej 


9? g1 


LE 
示意 


1momentum 视 


3.Nesterov Momentum: 


Nesterov Momentum 局 另外 一 种 Momentum 的 变形 体 ， 目 的 也 是 降低 陷入 local minimum 机 率 的 方法 ， 而 十 种 方法 的 差 胰 在 
ATH: 


Momentum update Nesterov momentum update 


“lookahead” gradient 
step (bit different than 


original) 













momentum 
step 


momentum 
step 
actual step 
actual step 


gradient 
step 


EI2: € IB] f momentum * 1.7531 X- gradient、2. 加 上 momentum ` 3. € %4 & + E Á Nesterov Momentum ，1. 先 加 上 
momentum ^ 2.3t X-gradient ` 3. € 31 4E E » 


28] A RAR :http://cs231n.github.io/neural-networks-3/ 


4.Adaptive Moment Estimation (Adam): 


Adam 高 一 种 自己 更 新 学 习 速 率 的 方法 ， 会 根据 GD 计算 出 来 的 值 调整 每 个 参数 的 学 习 率 (因材施教 )。 以 上 所 有 的 最 佳 化 方法 
都 将 需要 设 定 learning_rate_init 值 ， 此 箔 例 结果 将 呈现 四 种 不 同 资料 的 比较 :iris 资 料 集 、digits 资 料 集 、 与 使 用 
sklearn.datasets 产 生 资料 集 circles、moon ° 


(S) A Àx AUS 


print( doc ) 

import matplotlib.pyplot as plt 

from sklearn.neural network import MLPClassifier 
from sklearn.preprocessing import MinMaxScaler 


from sklearn import datasets 


(二 ) 设 定 模型 参数 


Ex 3: Compare Stochastic learning strategies for MLPClassifier 


# different learning rate schedules and momentum parameters 
params = [{'solver': 'sgd', 'learning rate': 'constant', 'momentum': 0, 
'learning rate init': 0.2), 
{'solver': 'sgd', 'learning rate': 'constant', 'momentum': .9, 
'nesterovs momentum': False, 'learning rate init': 0.2], 
'solver': 'sgd', 'learning rate': 'constant', 'momentum': .9, 
g g 
'nesterovs momentum': True, 'learning rate init': 0.2), 
{'solver': 'sgd', 'learning rate': 'invscaling', 'momentum': 0, 
'learning rate init': 0.2), 
'solver': 'sgd', 'learning rate': 'invscaling', 'momentum': .9, 
g g g 
'nesterovs momentum': True, 'learning rate init': 0.2), 
('solver': 'sgd', 'learning rate': 'invscaling', 'momentum': .9, 
'nesterovs momentum': False, 'learning rate init': 0.2), 


{'solver': 'adam', 'learning rate init': 0.01)] 


labels - ["constant learning-rate", "constant with momentum", 
"constant with Nesterov's momentum", 
"inv-scaling learning-rate", "inv-scaling with momentum", 


"inv-scaling with Nesterov's momentum", "adam"] 


plot args = [('c': 'red', 'linestyle': '-'}, 
Cn en mam lene Sy ae: MU 
Gls s “biluet ye ines t yA errs ual 
('c': 'red', 'linestyle': '--'}, 
('c': 'green', 'linestyle': '--'), 
{'c': 'blue', 'linestyle': '--'}, 
ce ublack i Restylen UY] 


(=) Hiloss curves 
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def plot on dataset(X, y, ax, name): 
# for each dataset, plot learning for each learning strategy 
print("\nlearning on dataset %s" 96 name) 
ax.set title(name) 
X - MinMaxScaler().fit transform(X) 
mlps - [] 
if name -- "digits": 
# digits is larger but converges fairly quickly 
max iter - 15 
else: 


max iter - 400 


for label, param in zip(labels, params): 
print("training: %s" 96 label) 
mlp = MLPClassifier(verbose=0, random state=0, 

max iter-max iter, **param) 

mlp.fit(X, y) 
mlps.append(mlp) 
print("Training set score: %f" % mlp.score(X, y)) 
print("Training set loss: %f" 96 mlp.loss ) 

for mlp, label, args in zip(mlps, labels, plot args): 


ax.plot(mlp.loss curve , label-label, **args) 


fig, axes = plt.subplots(2, 2, figsize-(15, 10)) 


# load / generate some toy datasets 
iris - datasets.load iris() 
digits - datasets.load digits() 
data sets - [(iris.data, iris.target), 
(digits.data, digits.target), 
datasets.make circles(noise-0.2, factor-0.5, random state-i), 


datasets.make moons(noise-0.3, random statez0)] 


for ax, data, name in zip(axes.ravel(), data sets, ['iris', 'digits', 
dcuycdes a moomnss 9t 


plot on dataset(*data, ax-ax, name-name) 


fig.legend(ax.get lines(), labels-labels, ncol=3, loc="upper center") 
plt.show() 


Ex 3: Compare Stochastic learning strategies for MLPClassifier 


— constant learning-rate = - inv-scaling learning-rate —- inv-scaling with Nesterov's momentum 
— constant with momentum —-. inv-scaling with momentum — adam 


— constant with Nesterov's momentum 


12 iris 25 digits 
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(四 ) 完 整 程式 码 


print( doc ) 

import matplotlib.pyplot as plt 

from sklearn.neural network import MLPClassifier 
from sklearn.preprocessing import MinMaxScaler 
from sklearn import datasets 


# different learning rate schedules and momentum parameters 
params = [{'solver': 'sgd', 'learning rate': 'constant', 'momentum': 0, 
learning inat eninit 390727 
{'solver': 'sgd', 'learning_rate': 'constant', 'momentum': .9, 
'nesterovs momentum': False, 'learning rate init': 0.2), 
('solver': 'sgd', 'learning rate': 'constant', 'momentum': .9, 
'nesterovs momentum': True, 'learning rate init': 0.2), 
{'solver': 'sgd', 'learning rate': 'invscaling', 'momentum': 0, 
Miearnanguyate anwe 0:27 
{'solver': 'sgd', 'learning rate': 'invscaling', 'momentum': .9, 
'nesterovs momentum': True, 'learning rate init': 0.2), 
('solver': 'sgd', 'learning rate': 'invscaling', 'momentum': .9, 
'nesterovs momentum': False, 'learning rate init': 0.2), 


{solver tadam earnangesratesimngtbo:20:099])] 


labels - ["constant learning-rate", "constant with momentum", 
"constant with Nesterov's momentum", 


"inv-scaling learning-rate", "inv-scaling with momentum", 


400 
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plot_arg 


def plot 
# fo 
prin 
ax.s 
» e 
mlps 
if n 


else 


for 


for 


fig, axe 
# load / 
iris - d 
digits - 
data set 


for ax, 


plot 


"inv-scaling with Nesterov's momentum", "adam"] 


Ss IE meds mestiere T 
{'c': 'green', 'linestyle': '-'}, 
(Cu bue AENA maul, 
{Eco uredi “linestyles: -= 
Cu neen meltnestyles uu 
clu nestyLer Moe ke 
Tea Dack anes Cy len: | 

.on dataset(X, y, ax, name): 


r each dataset, plot learning for each learning strategy 


t("\nlearning on dataset %s" 96 name) 

et title(name) 

MinMaxScaler().fit transform(X) 

= g 

ame == "digits": 

# digits is larger but converges fairly quickly 
max_iter = 15 


max_iter = 400 


label, param in zip(labels, params): 

print("training: %s" % label) 

mlp = MLPClassifier(verbose=0, random_state=0, 
max_iter=max_iter, **param) 

mlp.fit(X, y) 

mlps.append(mlp) 

print("Training set score: %f" % mlp.score(X, y)) 

print("Training set loss: %f" 96 mlp.loss ) 

mlp, label, args in zip(mlps, labels, plot args): 


ax.plot(mlp.loss curve , label-label, **args) 


S = plt.subplots(2, 2, figsize-(15, 19)) 
generate some toy datasets 
atasets.load iris() 
datasets.load digits() 
S = [(iris.data, iris.target), 
(digits.data, digits.target), 


datasets.make_circles(noise=0.2, factor=0.5, 


random_state=1), 


datasets.make_moons(noise=0.3, random_state=0) ] 


data, name in zip(axes.ravel(), data sets, ['iris', 'digits', 


'circles', 'moons']): 


.on dataset(*data, ax-ax, name=name) 


fig.legend(ax.get lines(), labels-labels, ncol=3, loc="upper center") 
plt.show() 


Ex 3: Compare Stochastic learning strategies for MLPClassifier 
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Varying regularization in Multi-layer Perceptron 


http://scikit-learn.org/stable/auto_examples/neural_networks/plot_mlp_alpha.html#sphx-glr-auto-examples-neural- 
networks-plot-mlp-alpha-py 


3t $64] X Foi A 85 3E BU Z- S&'alpha' > Hae Ascikit-learn4y K4 Æ ^E 8 » Pp AE E circles > moon 和 random n-class 
classification > 246 #4} 464) mek o PSEA — 16 EE AKTR X  ERUR-EROBREAW TK o E38 5] A AE 
的 概念 一 正规 子 (regulator)， 去 限制 函数 使 得 函数 不 会 发 散 此 处 的 Alpha 参 数 即 遍 正规 子 ， 目 的 是 去 限制 权重 (Weight,W) 的 
大 小 ， 以 防 菌 一 overfitting 与 underfitting 的 问题 ， 增 加 alpha 值 可 能 可 以 处 理 overfitting， 反 之 减 小 alpha 可 能 可 以 解决 
underfitting 的 问题 ， 至 於 权重 大 小 ， 如 何 影 响 输 出 请 看 图 1: 
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(—)s A BAB 


print( doc ) 


# Author: Issam H. Laradji 


# License: BSD 3 clause 


import numpy as np 

from matplotlib import pyplot as plt 

from matplotlib.colors import ListedColormap 

from sklearn.model selection import train test split 
from sklearn.preprocessing import StandardScaler 


from sklearn.datasets import make moons, make circles, make classification 





from sklearn.neural network import MLPClassifier 


(二 ) 设 定 模型 参数 与 产生 资料 


h = .02 # step size in the mesh 


alphas = np.logspace(-5, 3, 5)# 
names = [] 
for i in alphas: 


names.append('alpha ' + str(i)) 


classifiers = [] 
for i in alphas: 


classifiers.append(MLPClassifier(alpha-i, random_state=1) ) 


X, y = make_classification(n_features=2, n_redundant=0, n_informative=2, 
random_state=0, n clusters per class-i) 

rng = np.random.RandomState(2) 

X += 2 * rng.uniform(size-X.shape) 


linearly separable - (X, y) 


datasets = [make moons(noise-0.3, random state-6), 
make circles(noise-z0.2, factor=0.5, random state-i), 


linearly separable] 


figure = plt.figure(figsize=(17, 9)) 

i=1 

# iterate over datasets 

for X, y in datasets: 
# preprocess dataset, split into training and test part 
X = StandardScaler().fit_transform(X) 


X train, X test, y train, y test = train test split(X, y, test_size=.4) 


x min, x max = X[:, O].min() - .5, X[:, 6].max() + .5 
y min, y max = X[:, 1].min() - .5, X[:, 1].max() + .5 
XX, yy - np.meshgrid(np.arange(x min, x max, h), 


np.arange(y min, y max, h)) 


(zy& 28% 


# just plot the dataset first 

cm = plt.cm.RdBu 

cm bright = ListedColormap(['4FF0000', '#0000FF']) 

ax = plt.subplot(len(datasets), len(classifiers) + 1, i) 

4 Plot the training points 

ax.scatter(X train[:, 0], X train[:, 1], c-y train, cmap-cm bright) 
4 and testing points 

ax.scatter(X test[:, 0], X test[:, 1], c-y test, cmap-cm bright, alpha=0.6) 
ax.set xlim(xx.min(), xx.max()) 

ax.set ylim(yy.min(), yy.max()) 

ax.set xticks(()) 

ax.set yticks(()) 


al ses nl 


# iterate over classifiers 

for name, clf in zip(names, classifiers): 
ax = plt.subplot(len(datasets), len(classifiers) + 1, i) 
clf.fit(X train, y train) 


Score - clf.score(X test, y test) 


# Plot the decision boundary. For that, we will assign a color to each 


# point in the mesh [x min, x max]x[y min, y max]. 





if hasattr(clf, "decision function"): 
Z - clf.decision function(np.c [xx.ravel(), yy.ravel()]) 
else: 


Z - clf.predict proba(np.c [xx.ravel(), yy.ravel()])[:, 1] 


# Put the result into a color plot 
Z = Z.reshape(xx.shape) 


ax.contourf(xx, yy, Z, cmap=cm, alpha=.8) 


# Plot also the training points 

ax.scatter(X train[:, 0], X train[:, 1], c=y_train, cmap=cm_bright) 

# and testing points 

ax.scatter(X test[:, 0], X test[:, 1], c-y test, cmap-cm bright, 
alpha=0.6) 


ax.set xlim(xx.min(), xx.max()) 

ax.set ylim(yy.min(), yy.max()) 

ax.set xticks(()) 

ax.set yticks(()) 

ax.set title(name) 

ax.text(xx.max() - .3, yy.min() + .3, ('%.2f' % score).1strip('0'), 
size=15, horizontalalignment-'right') 


ab ores al 


figure.subplots_adjust(left=.02, right=.98) 
plt.show() 


Ex 4: Varying regularization in Multi-layer Perceptron 


alpha 1e-05 






alpha 0.001 






alpha 0.1 alpha 10.0 
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alpha 1000.0 





alpha 1e-05 alpha 0.001 


alpha 10.0 
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ik $4 Decision trees 


策 树 /范例 一 : Decision Tree Regression 


http://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html#sphx-glr-auto-examples-tree-plot-tree- 
regression-py 


范例 目的 


此 范例 利用 Decision Tree 从 数据 中 学 习 一 组 ifthen-else 决 策 规 则 ， 逼 近 加 有 杀 讯 的 Sine curve， 因 此 它 模 所 出 局 部 的 线性 过 
$p VAiE sine curves 若 决策 要 深度 越 深 (可 由 max_depth 参 数控 制 )， 则 决策 规则 越 复 杂 ， 模 型 也 会 越 接近 数据 ， 但 若 数据 中 
含有 杀 讯 ， 太 深 的 树 就 有 可 能 产生 过 气 合 的 情形 。 此 范例 模 手 了 不 同 深度 的 树 ， 当 用 带 有 杀 点 的 数据 可 能 造成 的 情况 。 


(一 ) 引 入 元 式 库 及 建立 随机 数据 资料 
引入 函 式 资料 库 


e matplotlib.pyplot : HR x o 


e sklearn.tree import DecisionTreeRegressor :利用 决策 树 方式 建立 预测 模型 。 


特征 资料 


e np.random() :随机 产生 介 於 0~1 之 闻 的 乱 数 
e RandomState.rand(d0,d1,..,dn) : ZTEI AL SCA] 4e RA AR 
e np.sort 将 资料 依 大 小 排序 


目标 资料 


e np.sin(X) : 以 X 做 高 径 度 ， 计 算出 相对 的 sine 值 。 

e ravel() :输出 连续 的 一 维和 矩阵 。 

e y[::5] += 3 * (8.5 - rng.rand(16)) :局 目标 资料 加 入 杂 讯 点 。 
import numpy as np 

from sklearn.tree import DecisionTreeRegressor 


import matplotlib.pyplot as plt 


rng = np.random.RandomState(1) 


X = np.sort(5* rng.rand(80, 1), axis=0) #0~5 之 问 随机 产生 80 个 数值 
y = np.sin(X).ravel() 
y[::5] += 3 * (0.5 - rng.rand(16)) # 每 5 笔 资 料 加 入 一 个 杂 讯 


(二 ) 建 立 Decision Tree 过 名 模型 


建立 模型 
e DecisionTreeRegressor(max depth = 最 大 深度 ) : DecisionTreeRegressor 建立 决策 树 回 印 模 


型 。 max depth 决定 树 的 深度 ， 若 局 None 虽 所 有 节点 被 展开 。 此 范例 会 呈现 不 同 max depth 对 预测 结果 的 影响 。 
模型 训练 
。 fit (特征 资料 ， 目 标 资料 ) : 利用 特 微 资料 及 目标 资料 对 过 银 模 型 进行 训 统 。 


预测 结果 





e np.arrange( 起 始点 ， 结束 点 ， 间 隔 ) : np.arange(0.0, 5.0, 0.01) 在 0~5 之 问 每 0.01 取 一 格 ， 建 立 预测 输入 点 
AERE 。 


e np.newaxis : Jože BR AEE o 
e predict(#AM) : HURT EOHMM RA > Hh SAMAR e 


regr 1 = DecisionTreeRegressor(max_depth=2) # 最 大 深度 高 2 的 决策 树 


regr_2 = DecisionTreeRegressor(max depthz5) # 最 大 深度 启 5 的 决策 树 
g g p 


regr_1.fit(X, y) 
regr 2.fit(X, y) 


X test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis] 
y 1 regr 1.predict(X test) 
y 2 regr 2.predict(X test) 


(=) 给 出 预测 结果 与 实际 目标 图 


e plt.scatter(X,y) :将 X、y 以 点 的 方式 给 毛 於 平面 上 ，C 局 数据 点 的 颜色 » label | f] » 
e plt.plot(X,y) : X^ yXGE Zr AG RAE d. E. > color && £578 & > label Atl > linewidth & 445 HE » 


plt.figure() 

plt.scatter(X, y, c="darkorange", label="data") 

plt.plot(X test, y 1, color="cornflowerblue", label="max_depth=2", linewidth=2) 
plt.plot(X test, y 2, color="yellowgreen", label="max_depth=5", linewidth=2) 
plt.xlabel("data") #X 轴 代表 data 数 值 

plt.ylabel("target") #y 轩 代表 target 数 值 

plt.title("Decision Tree Regression") # 标 示 图 片 的 标题 

plt.legend() # 给 出 图 例 

plt.show() 


T Decision Tree Regression 


— max depth=2 
— max depthz5 
ooo data 


target 





(四 ) 完 整 程式 码 
print( doc ) 


# Import the necessary modules and libraries 
import numpy as np 

from sklearn.tree import DecisionTreeRegressor 
import matplotlib.pyplot as plt 


# Create a random dataset 


rng = np.random.RandomState(1) 


x 
Il 


np.sort(5 * rng.rand(80, 1), axis=0) 
np.sin(X).ravel() 
y[::5] += 3 * (0.5 - rng.rand(16)) 


< 
M 


# Fit regression model 

regr 1 = DecisionTreeRegressor (max_depth=2) 
regr 2 = DecisionTreeRegressor(max depth-5) 
regr_1.fit(X, y) 

regr 2.fit(X, y) 


# Predict 

X test = np.arange(90.0, 5.0, 0.01)[:, np.newaxis] 
y_1 
y_2 


regr 1.predict(X test) 


regr 2.predict(X test) 


# Plot the results 

plt.figure() 

plt.scatter(X, y, c="darkorange", label="data") 

plt.plot(X test, y 1, color="cornflowerblue", label="max_depth=2", linewidth=2) 
plt.plot(X test, y 2, color="yellowgreen", label="max_depth=5", linewidth=2) 
plt.xlabel("data") 

plt.ylabel("target") 

plt.title("Decision Tree Regression") 

plt.legend() 

plt.show() 


i® 451/40] —:Multi-output Decision Tree Regression 


http://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression_multioutput.html#sphx-glr-auto-examples-tree-plot- 
tree-regression-multioutput-py 


范例 目的 


此 范例 用 决策 树 说 明 多 输出 馆 邹 的 例子 ， 利 用 带 有 钛 讯 的 特 微 及 目标 值 模 所 出 近似 图 的 局 部 线性 过 银 。 若 决 策 树 深度 越 深 
(可 由 max_depth 参 数控 制 )， 则 决策 规则 越 复 杂 ， 模 型 也 会 越 接 近 数 据 ， 但 若 数据 中 含有 条 讯 ， 太 深 的 树 就 有 可 能 产生 过 所 
合 的 情形 。 此 范例 模 握 了 不 同 深度 的 树 ， 当 用 带 有 半点 的 数据 可 能 造成 的 情况 。 


(一 ) 引 入 元 式 库 及 建立 随机 数据 资料 
引入 函 式 资料 库 


e matplotlib.pyplot : Hk 8S X ° 
e sklearn.tree import DecisionTreeRegressor :利用 决策 树 方式 建立 预测 模型 。 


特征 资料 


e np.random() : 随机 产生 介 认 0~1 之 问 的 乱 数 
e RandomState.rand(d9,d1,..,dn) : SME PAL SCA 4E EU AR 
e np.sort 将 资料 依 大 小 排序 。 


目标 资料 


e np.sin(X) : 以 X 做 高 径 度 ， 计 算出 相对 的 sine 值 。 
e ravel() :输出 连续 的 一 维和 矩阵 。 
e y[::5, :] += (0.5 - rng.rand(20, 2)) :高 目标 资料 如 入 杂 讯 点 。 


import numpy as np 
from sklearn.tree import DecisionTreeRegressor 
import matplotlib.pyplot as plt 


rng = np.random.RandomState(1) 
X 


np.sort(200 * rng.rand(100, 1) - 100, axis=0) # 在 -100~100 之 问 随机 建立 100 个 点 


y = np.array([np.pi * np.sin(X).ravel(), np.pi * np.cos(X).ravel()]).T 44í&xye 2A (a7 +5 sine 


g E Fa ae yt E 
icosineti > kAAy# 


y[::5, :] += (0.5 - rng.rand(20, 2)) #45 


E HUP A — 48] REGAL 


(=) x: Decision Tree: $$ 12 7 


建立 模型 


e DecisionTreeRegressor(max depth = 最 大 深度 ) : DecisionTreeRegressor 建立 决策 树 回 晤 模 
Al o max depth 决定 树 的 深度 ， 若 局 None 则 所 有 节点 被 展开 。 此 范例 会 呈现 不 同 max depth 对 预测 结果 的 影响 。 


模型 训练 


e fit( 特 币 资 料 ， 目 标 资料 ) : 利用 特征 资料 及 目标 资料 对 过 色 模 型 进行 训练 。 


预测 结果 


e np.arrange( 起 始点 ， 结 束 点 ， 问 隔 ) : np.arange(-100.0, 100.0, 0.01) 在 -100~100 之 问 每 0.01 取 一 格 ， 建 立 
TA Bldg A BEE RE 。 

e np.newaxis : 增加 和 珑 降 维 度 。 

e predict( 输 入 矩阵 ) : 对 训 张 完毕 的 模型 测试 ， 输 出 高 预测 结果 。 


# Fit regression model 


regr 1 = DecisionTreeRegressor(max depthz2) 4 XE E 


2 


regr 2 = DecisionTreeRegressor(max_depth=5) #7 ARAE 





regr 3 = DecisionTreeRegressor(max depthz8) 4 XU EE 
regr_1.fit(X, y) 
regr 2.fit(X, y) 
regr 3.fit(X, y) 


# Predict 

X test - np.arange(-100.0, 100.0, 0.01)[:, np.newaxis] 
y. 1 = regr 1.predict(X test) 

y. 2 = regr 2.predict(X test) 

y. 3 = regr 3.predict(X test) 


(=) 给 出 预测 结果 与 实际 目标 


e plt.scatter(X,y) :将 X、y 以 点 的 方式 给 氛 认 平面 上 ，c 局 数据 点 的 颜色 ，s 决 定点 的 大 小 ，label 馈 图 例 。 


plt.figure() 

s = 50 

plt.scatter(y[:, 0], y[:, 1], c="navy", s=s, label="data") 

plt.scatter(y_1[:, 0], y_1[:, 1], c="cornflowerblue", s=s, label="max_depth=2") 
plt.scatter(y 2[:, 0], y_2[:, 1], c="c", s=s, label="max_depth=5") 
plt.scatter(y 3[:, 0], y_3[:, 1], c="orange", s=s, label="max_depth=8") 
plt.xlim([-6, 6]) #8 
plt.ylim([-6, 6]) # 设 定 y 轴 的 上 下 限 
plt.xlabel("target 1") #x 轴 代表 target 1 数值 
plt.ylabel("target 2") #x 轴 代表 target 2 数 





Exi EFIR 






plt.title("Multi-output Decision Tree Regression") # 标 示 图 片 的 标题 
plt.legend() #47 i E4 
plt.show() 


Multi-output Decision Tree Regression 


eee data 
000 max depth-2 


target 2 





target 1 


(四 ) 完 整 程式 码 


print( doc ) 


import numpy as np 
import matplotlib.pyplot as plt 


from sklearn.tree import DecisionTreeRegressor 


# Create a random dataset 

rng = np.random.RandomState(1) 

X = np.sort(200 * rng.rand(100, 1) - 100, axis=0) 

y - np.array([np.pi * np.sin(X).ravel(), np.pi * np.cos(X).ravel()]).T 
y[::5, :] += (0.5 - rng.rand(20, 2)) 


# Fit regression model 

regr 1 = DecisionTreeRegressor (max_depth=2) 
regr 2 = DecisionTreeRegressor(max depth-5) 
regr 3 = DecisionTreeRegressor (max_depth=8 ) 
regr_1.fit(X, y) 

regr 2.fit(X, y) 

regr 3.fit(X, y) 


# Predict 
X test = np.arange(-100.0, 100.0, 0.01)[:, np.newaxis] 


y. 1 = regr 1.predict(X test) 
y.2 - regr 2.predict(X test) 
y_3 = regr 3.predict(X test) 


# Plot the results 

plt.figure() 

S = 90 

plt.scatter(y[:, 0], y[:, 1], c="navy", s=s, label="data") 
plt.scatter(y_1[:, 0], y_1[:, 1], c="cornflowerblue", s=s, label="max_depth=2") 
plt.scatter(y 2[:, 0], y_2[:, 1], c="c", s=s, label="max_depth=5") 
plt.scatter(y 3[:, 0], y_3[:, 1], c="orange", s=s, label="max_depth=8") 
plt.xlim([-6, 6]) 

plt.ylim([-6, 6]) 

plt.xlabel("target 1") 

plt.ylabel("target 2") 

plt.title("Multi-output Decision Tree Regression") 

plt.legend() 

plt.show() 


决策 树 /范例 三 : Plot the decision surface of a decision tree on the iris 
dataset 


http://scikit-learn.org/stable/auto_examples/tree/plot_iris.html#sphx-glr-auto-examples-tree-plot-iris-py 


RAA RRB DAA SEE RA RTIA RRS 82 2 2E o UE RIA ETE SUL ^ AK Py AAS AR > 
18 9| AT RT e e 89 E IAID Ho SPAETH GRFC o RRS E EE h 135 09 PAL ^ BERR RIE o 


范例 目的 : 


1， 资 料 集 : iris SRIF 

2. 特征 : E EAE 

3. 预测 目标 : 是 哪 一 种 万 尾 花 

4. 机 器 学 习 方 法 : decision tree 决策 树 


(一 ) 引 入 函 式 库 及 内 建 测试 资料 诺 


e from sklearn.datasets import load iris R SPA iris 局 一 个 dict 型 别 资料 。 
e 每 笔 资料 中 有 4 个 特征 ， 一 次 取 2 个 特征 ， 共 有 6 种 排列 方式 。 
e. X (特征 资料 ) 以 及 y (目标 资料 )。 


e DecisionTreeClassifier 建立 决策 树 分 类 器 。 


import numpy as np 


import matplotlib.pyplot as plt 


from sklearn.datasets import load iris 


from sklearn.tree import DecisionTreeClassifier 

iris - load iris() 

for pairidx, pair in enumerate([[0, 1], [0, 2], [0, 3], 
[1, 2], [1, 3], [2, 3]]): 


X - iris.data[:, pair] 


y - iris.target 


(=) z Decision Tree 分 类 器 


e DecisionTreeClassifier() :决策 树 分 类 器 。 
o fit( 特 微 资料， 目标 资料 ) : 利用 特征 资料 及 目标 资料 对 分 类 器 进行 训 张 。 


clf = DecisionTreeClassifier().fit(X, y) 


(=) RRRERA | RS 


e np.meshgrid : 利用 特征 之 最 大 最 小 值 ， 建 立 预 测 用 网 格 xx, yy 

e clf.predict : 预 估 分 类 结果 。 

e plt.contourf : $4 GEM ° 

e plt.scatter(X,y) : X` yASE 069 2: A8 E OE > cH SCIRE EE 05 28 6, > label & IS] 6] » 





Ex 3: Plot the decision surface of a decision tree on the iris d 


plt.subplot(2, 3, pairidx + 1) 


x min, x max = X[:, O].min() - 1, X[:, O].max() + 1 


y min, y max = X[:, i].min() - 1, X[:, 1].max() + 1 
XX, yy - np.meshgrid(np.arange(x min, x max, plot step), 
np.arange(y min, y max, plot step)) 

Z = clf.predict(np.c [xx.ravel(), yy.ravel()]) #np.c  $i&mülist,np.ravelif4E RE 86 AB — 4& 
Z - Z.reshape(xx.shape) 
cs = plt.contourf(xx, yy, Z, cmap-plt.cm.Paired) 
plt.xlabel(iris.feature names[pair[9]]) 
plt.ylabel(iris.feature names[pair[1]]) 
plt.axis("tight") 
for i, color in zip(range(n classes), plot colors): 

idx - np.where(y -- i) 

plt.scatter(X[idx, 0], X[idx, 1], c-color, label-iris.target names[i], 


cmap-plt.cm.Paired) 


plt.axis("tight") 


Decision surface of a decision tree using paired features 


N 


sepal width (cm) 
LI 


E 


petal length (cm) 
C p hJ) UJ qs UANO 





3 £4 - 012345678 
sepal width (cm) sepal width (cm) petal length (cm) 
(四 ) 完 整 程式 码 


print( doc ) 
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import numpy as np 


import matplotlib.pyplot as plt 


from sklearn.datasets import load iris 


from sklearn.tree import DecisionTreeClassifier 


4 Parameters 

n classes - 3 

plot colors - "bry" 
plot step - 0.02 


# Load data 


iris = load_iris() 


for pairidx, pair in enumerate([[0, 1], [0, 2], [9, 3], 
[1, 2], [1, 3], [2, 3]]): 


# We only take the two corresponding features 


X - iris.data[:, pair] 
y - iris.target 
# Train 


clf - DecisionTreeClassifier().fit(X, y) 


4 Plot the decision boundary 


plt.subplot(2, 3, pairidx + 1) 


x min, x max = X[:, O].min() - 1, X[:, O].max() + 1 


y min, y max = X[:, i].min() - 1, X[:, 1].max() + 1 


XX, yy - np.meshgrid(np.arange(x min, x max, plot step), 


np.arange(y min, y max, plot step)) 


Z = clf.predict(np.c [xx.ravel(), yy.ravel()]) £np.c  $?4'&fülist,np.ravel A 





Z = Z.reshape(xx.shape) 


cs = plt.contourf(xx, yy, Z, cmap-plt.cm.Paired) 


plt.xlabel(iris.feature names[pair[9]]) 
plt.ylabel(iris.feature names[pair[1]]) 
plt.axis("tight") 


# Plot the training points 
for i, color in zip(range(n classes), plot colors): 
idx - np.where(y -- i) 
plt.scatter(X[idx, 9], X[idx, 1], c=color, label-iris.target names[i], 


cmap-plt.cm.Paired) 


plt.axis("tight") 


Ex 3: Plot the decision surface of a decision tree on the iris dataset 


plt.suptitle("Decision surface of a decision tree using paired features") 
plt.legend() 
plt.show() 
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345] $2 %] v? : Understanding the decision tree structure 


http://scikit-learn.org/stable/auto examples/tree/plot unveil tree structure.html£zsphx-glr-auto-examples-tree-plot-unveil- 
tree-structure-py 


范例 目的 
此 范例 主要 在 进一步 探讨 决策 树 内 部 的 结构 ， 分 析 以 获得 特 微 宙 目 标 之 问 的 有 天 伯 ， 状 进而 进行 预测 。 


当 每 个 节点 的 分 支 最 多 只 有 两 个 稿 之 局 二 元 树 结构 。 

Ae ee ane es ， 在 二 元 树 中 若 该 节点 高 判断 的 最 后 一 属 称 之 高 村。 
利用 decision path 获得 决策 路 径 的 资讯 。 

利用 apply 得 到 预测 结果 ， 也 就 是 决策 树 最 后 抵达 的 全 。 

建立 完成 后 的 规则 变 能 用 来 预测 。 

一 组 多 个 样本 可 以 寻 得 其 中 共同 的 决策 路 径 。 


Qaar wn > 


(一 ys] A $ 5 X E CR 试 资料 
5) A BA Rat 


e load iris JAR £6 YER o 


from sklearn.model selection import train test split 
from sklearn.datasets import load iris 


from sklearn.tree import DecisionTreeClassifier 


建立 训练 、 测 试 集 及 决策 树 分 类 器 


X (特征 资料 ) 以 及 y (目标 资料 ) 。 
e train test split(X, y, random state) 将 资料 随机 分 高 测试 集 及 训 张 集 。 

X 局 特征 资料 集 、y 局 目标 资料 集 ， random_state 随机 数 生 成 器 。 
e DecisionTreeClassifier(max leaf nodes, random state) 建立 决策 树 分 类 器 
max leaf nodes 节点 局 业 的 最 大 数目 ， random state 若 存 在 则 局 随机 数 生成 器 
用 np.random 。 

fit(X, y) AMEIR XA IWR REFF” yÁ RIEA e 


: s 
o 


时 ， 若 不 存在 则 使 


a 


iris = load_iris() 

X = iris.data 

y = iris.target 

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0) 
estimator = DecisionTreeClassifier(max leaf nodes-3, random_state=0) 
estimator.fit(X train, y train) 


(=) 决策 树 结构 探讨 


在 DecisionTreeClassifier 中 有 个 属性 tree ， 人 和 储存 了 整个 树 的 结构 。 
二 元 树 被 表示 局 多 个 平行 的 矩阵 ， 每 个 和 矩 障 的 第 i 个 元 素 储存 著 关 於 季 点 "i" 的 信息 ， 季 点 0 代表 树 的 根 。 
需要 注意 的 是 ， 有 些 矩 别 只 庆 用 於 有 分 支 的 和 节点， 在 这 种 情况 下 ， 其 他 类 型 的 节点 的 值 是 任意 的 。 


上 述 所 说 的 矩 降 包含 了 


1. node count : 总 共 的 节点 个 数 。 


children left : 季 点 左 跟 的 季 点 的 ID，"-1" 代 表 该 季 点 底下 已 乱 分 支 。 

children righ : 85354535 85 85 AID ，"-1" 代 表 该 凶 点 底下 已 乱 分 支 。 

feature :使 凶 点 产生 分 支 的 特征，"-2" 代 表 该 季 点 底下 已 无 分 支 。 

threshold : #254) 4a o 4 SB AR A838 threshold ， 则 中 的 两 端 就 视 作 同 一 个 群集 。 


ak wn 


n_nodes = estimator.tree_.node_count 
children_left = estimator.tree_.children_left 
children_right = estimator.tree_.children_right 
feature = estimator.tree_.feature 


threshold = estimator.tree_.threshold 


VAT By S58 aD 


n_nodes = 5 

children left [1-1 3 -1 -1] 

children right [ 2 -1 4 -1 -1] 

feature [ 3 -2 2 -2 -2] 

threshold [ 0.80000001 -2. 4.94999981 -2. Cr 


La 


= JG 89 45 4 Pp 38 388 SB EET VA CST LY > Hl e AA Bp Bb 80 TRE VLL E 6 AHORA o 


e node depth : BARRE PAIR E(B) o 
e is leaves : AMBLER R RH RRB (E) ° 
e stack : FMA Be SIERRA 0) Bp BSA o 


3M stack4? — 48 jp 25 F3 pop wh AK > ALES fp 585 AS fp BID LS EHD E f BID © 
SAAR DSB AG Ze s Bp Bb ag Xv Astack? > Xdarp Alek ap Sb CA is leaves 3t ÉTrue 。 


node_depth = np.zeros(shape=n_nodes) 


is_leaves = np.zeros(shape=n_nodes, dtype=bool) 
stack = [(0, -1)] #initial 


while len(stack) > 0: 
node_id, parent_depth = stack.pop() 
node depth[node id] = parent depth + 1 


4 If we have a test node 

if (children left[node id] !- children right[node id]): 
stack.append((children left[node id], parent depth + 1)) 
stack.append((children right[node id], parent depth + 1)) 

elise: 


is_leaves[node_id] = True 


stack len 1 


node id 9 parent depth -1 

node depth [ 0. 0. O0. 0. 0.] 
stack [(1, 9), (2, 9)] 

stack len 2 

node id 2 parent depth 0 

node depth [ 0. 0. 1. 0. 0.] 
Stacks [il TREE 证 
stack len 3 

node id 4 parent depth 1 

node depth [ 0. 0. 1. 0. 2.] 
stack iLa 0) (37 sn] 

stack len 2 

node_id 3 parent_depth 1 

node depth [ 0. 0. 1. 2. 2.] 
stack [(1, 9)] 

stack len 1 

node_id 1 parent_depth 0 
nodexdepth | Om a0 ts) 2.) 25] 


stack [] 


节点 


ID 0 








ls 
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下 面 这 个 部 分 是 以 程式 的 方式 印 出 决策 树 结 构 ， 这 个 决策 树 共有 5 个 季 点 。 
若 遇 到 的 是 test node 则 用 阅 值 决定 该 往 哪 个 凶 点 前 进 ， 直 到 走 到 莱 局 止 。 


print("The binary tree structure has %s nodes and has " 
"the following tree structure:" 
% n nodes) 
for i in range(n nodes): 
if is leaves[i]: 
print("%snode=%s leaf node." % (node depth[i] * "Nt", i)) #"\t" aH} 
ese: 
print("%snode=%s test node: go to node %s if X[:, %s] <= %s else to " 
"nodes 
% (node depth[i] * "5t", 
i, 
children left[i], 
feature[i], 
threshold[i], 
children right[i], 
) ) 


执行 结果 


The binary tree structure has 5 nodes and has the following tree structure: 
node=0 test node: go to node 1 if X[:, 3] <= 0.800000011921 else to node 2. 
node-i leaf node. 
node-2 test node: go to node 3 if X[:, 2] <= 4.94999980927 else to node 4. 
node-3 leaf node. 


node-4 leaf node. 


接 下 来 要 来 探索 每 个 样本 的 决策 路 径 ， 利 用 decision path 方法 可 以 让 我 们 得 到 这 些 资讯 ，apply 存放 所 有 sample 最 后 
ARIE ME X 。 

以 第 0 笔 樟 本 当 作 和 范例， indices 存放 每 个 样本 经 过 的 节点 ， indptr 存放 每 个 样本 存放 和 节点 的 位 置 ， node index 中 存 
放 了 第 0 笔 样本 所 经 过 的 节点 ID © 


node indicator = estimator.decision path(X test) 
# Similarly, we can also have the leaves ids reached by each sample. 
leave id - estimator.apply(X test) 


4 Now, it's possible to get the tests that were used to predict a sample or 


# a group of samples. First, let's make it for the sample. 


sample id = 0 
node index - node indicator.indices[node indicator.indptr[sample id]: 
node indicator.indptr[sample id + 1]] 
print('node index', node index) 
print('Rules used to predict sample 9s: ' 96 sample id) 
for node id in node index: 
if leave id[sample id] !- node id: 


continue 


if (X test[sample id, feature[node id]] <= threshold[node id]): 
threshold sign = "<=" 
else: 


threshold sign = ">" 


print("decision id node %s : (X[%s, 96s] (= 96s) 96s 96s)" 
% (node id, 
sample id, 
feature[node id], 
X test[i, feature[node id]], 
threshold sign, 
threshold[node id])) 


执行 结果 


node index [9 2 4] 
Rules used to predict sample 0: 
decision id node 4 : (X[0, -2] (= 1.5) > -2.0) 


接 下 来 是 探讨 多 个 样本 ， 是 否 有 经 过 相同 的 季 点 。 
以 样本 0、1 当 作 和 范例，node_indicator.toarray() 疮 放 多 个 矩阵 0 代表 没有 经 过 该 凶 点 ，1 代 表 经 过 该 季 
$5» common nodes 中 存放 true 和 与 false， 若 同一 个 节点 相 加 的 值 等 认输 入 样本 的 各 树 ， 虽 代表 该 季 点 都 有 被 经 过 。 


# 


For a group of samples, we have the following common node. 


sample ids = [0, 1] 


common nodes = (node indicator.toarray()[sample ids].sum(axis-0) == 


p 
p 


len(sample ids)) 


rint('node indicator',node indicator.toarray()[sample ids]) 


rint('common nodes',common nodes) 


common node id - np.arange(n nodes)[common nodes] 


p 


p 


p 


rint('common node id',common node id) 


rint("\nThe following samples %s share the node %s in the tree" 
% (sample ids, common node id)) 
rint("It is 96s %% of all nodes." % (100 * len(common node id) / n nodes,)) 


执行 结果 


node indicator [[1 0 1 0 1] 


[1 0 1 1 0]] 


common nodes [ True False True False False] 


common node id [9 2] 


The following samples [0, i] share the node [0 2] in the tree 
It is 40.0 % of all nodes. 


(三 ) 完 整 程式 码 


import numpy as np 


from sklearn.model selection import train test split 


from sklearn.datasets import load iris 


from sklearn.tree import DecisionTreeClassifier 


iris - load iris() 


X 


y 
X 


- iris.data 


iris.target 


.train, X test, y train, y test = train test split(X, y, random state=0) 


estimator = DecisionTreeClassifier(max leaf nodes-3, random state=0) 


estimator.fit(X train, y train) 


wo E E e E E e o E 


The decision estimator has an attribute called tree_ which stores the entire 
tree structure and allows access to low level attributes. The binary tree 
tree is represented as a number of parallel arrays. The i-th element of each 
array holds information about the node “i>. Node © is the tree's root. NOTE: 
Some of the arrays only apply to either leaves or split nodes, resp. In this 


case the values of nodes of the other type are arbitrary! 


Among those arrays, we have: 
- left child, id of the left child of the node 





- right child, id of the right child of the node 
- feature, feature used for splitting the node 


- threshold, threshold value at the node 
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# Using those arrays, we can parse the tree structure: 


n nodes - estimator.tree .node count 

children left - estimator.tree .children left 
children right - estimator.tree .children right 
feature - estimator.tree .feature 


threshold - estimator.tree .threshold 


# The tree structure can be traversed to compute various properties such 
# as the depth of each node and whether or not it is a leaf. 
node depth = np.zeros(shapezn nodes) 
is leaves - np.zeros(shape-n nodes, dtype-bool) 
stack = [(0, -1)] # seed is the root node id and its parent depth 
while len(stack) » 0: 
node id, parent depth - stack.pop() 
node depth[node id] = parent depth + 1 


# If we have a test node 

if (children left[node id] !- children right[node id]): 
stack.append((children left[node id], parent depth + 1)) 
stack.append((children right[node id], parent depth + 1)) 

else: 


is_leaves[node_id] = True 


print("The binary tree structure has %s nodes and has " 
"the following tree structure:" 
% n nodes) 
for i in range(n nodes): 
if is leaves[i]: 
print("%snode=%s leaf node." 96 (node depth[i] * "Nt", i)) 
else: 
print("%snode=%s test node: go to node %s if X[:, 96s] <= %ss else to " 
"node 96s." 
% (node depth[i] * "5t", 
i, 
children left[i], 
feature[i], 
threshold[i], 
children right[i], 
) ) 
print() 


# First let's retrieve the decision path of each sample. The decision path 
# method allows to retrieve the node indicator functions. A non zero element of 
# indicator matrix at the position (i, j) indicates that the sample i goes 


# through the node j. 


node indicator = estimator.decision path(X test) 


# Similarly, we can also have the leaves ids reached by each sample. 


leave id - estimator.apply(X test) 


# Now, it's possible to get the tests that were used to predict a sample or 


# a group of samples. First, let's make it for the sample. 


sample id = 0 
node index - node indicator.indices[node indicator.indptr[sample id]: 


node indicator.indptr[sample id + 1]] 


print('Rules used to predict sample 9s: ' 96 sample id) 
for node id in node index: 
if leave id[sample id] !- node id: 


continue 


if (X test[sample id, feature[node id]] <= threshold[node id]): 
threshold sign = "<=" 
else: 


threshold sign = ">" 


print("decision id node %s : (X[%s, 96s] (= 96s) 96s 95s)" 
% (node id, 
sample id, 
feature[node id], 
X test[i, feature[node id]], 
threshold sign, 
threshold[node id])) 


# For a group of samples, we have the following common node. 

sample ids - [0, 1] 

common nodes = (node indicator.toarray()[sample ids].sum(axis-0) == 
len(sample ids)) 


common node id - np.arange(n nodes)[common nodes] 
print("NnThe following samples %s share the node %s in the tree" 


% (sample ids, common node id)) 
print("It is %s 966 of all nodes." % (100 * len(common node id) / n nodes,)) 


机 器 学 虱 : 使 用 NVIDIA Jetson TX2 


从 零 开 始 


灌 作业 系统 一 定 是 我 们 的 首要 目标 ， 但 在 这 之 前 ， 我 们 要 先 有 一 台 有 运行 Ubuntu x64 (14.04 或 更 新 ) 的 电脑 ， 可 以 用 错 所 机 来 
代替 。 


没有 虚 扎 机 的 朋友 可 以 用 VirtualBox。 


Ubuntu x64 的 映像 档 可 以 在 这 温 下 载 。 


1. 安装 VirtualBox 


流程 就 不 在 这 喧 鞭 述 ， 简 单 来 说 ， 就 是 狂 按 下 一 步 。 


2. 安装 Ubuntu x64 
有 了 两 点 要 注意 : 


1. 因 扁 稍 后 下 载 回来 的 安装 包 膛 会 有 额外 的 套件 需要 下 载 与 编译 ， 所 以 硬 碟 空间 要 大 一 些 ， 建 议 设 定 在 50G 以 上 。 


Create Virtual Hard Disk 


File location 
P 


File size 














4.00 MB 2.00 TB 


Hard disk file type Storage on physical hard disk 


(€) VDI (VirtualBox Disk Image) (€) Dynamically allocated 

© VHD (Virtual Hard Disk) O Fixed size 

© VMDK (Virtual Machine Disk) Split into files of less than 2GB 
© HDD (Parallels Hard Disk) 

(O QCOW (QEMU Copy-On-Write) 

(O QED (QEMU enhanced disk) 


Guided Mode Cancel 


2. ARE TX2 的 时 候 ， 需 要 将 TX2 Æ E32 Ubuntu x64 相同 的 区 网 ， 进 行 这 项 设 定 ， 请 : 





i. BA Ubuntu x64 49 E SE eot x 
ii, 2 AMBRE 


ii. 将 网 路 速 比方 式 园 择 枯 接 ， 站 指定 主机 用 来 上 网 的 网 路 介面 


o ubuntu - Settings 





IM General 
System 
ij Display 
Storage 





Shared Folders 


amr User Interface 





Network 











Adapter 1 Adapter 2 Adapter 3 Adapter 4 
Enable Network Adapter 
Attached to: Bridged Adapter ~ 





Name: Intel(R) 82574L Gigabit Network Connection 
> Advanced 


Invalid settings detected 
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让 TX2 HR 
基本 上 外 部 的 设置 已 经 完成 了 ， 接 下 来 就 要 把 目光 转移 到 TX2 上 面 。 


RRE AA A Jet Pack HE ARH > TARY FRM o 


1. 执行 JetPack 
注意 : 这 个 套件 要 在 Ubuntu x64 上 才能 执行 
首先 ， 我 们 需要 更 改 JetPack 的 权限 ， 让 他 可 以 执行 : 


1. HX JetPack 所 在 的 资料 来 。 

2. Æ> i Open in Terminal 。 

3. 执行 chmod +x JetPack-«VERSION».run ， 其 中 的 <VERSION> a ARAA AR AT PT RAMA © (可 以 按 tab RAK 
E Sy ah IME E AR) 


基本 上 接 下 来 按照 指示 操作 即 可 ， 当 出 现 Terminal 视窗 时 : 


1. 除了 要 将 TX2 BREF > HRS RR: 可 以 和 随 附 的 变压器 搭配 的 电源 线 、 随 附 的 micro-USB 线 、 钓 长 且 良 好 
的 网 路 线 、 可 以 用 HDMI 或 有 HDMI 转 接线 可 以 搭配 的 车 幕 、 键 盘 、 滑 息 。 

2. 将 TX2 接 上 电源 、 用 micro-USB 线 把 TX2 和 Ubuntu x64 违 在 一 起 、 网 路 线 接 到 和 Ubuntu x64 相同 的 区 域 网 路 下 。 

3. 在 按 按 鱼 之 前 ， 先 来 介绍 按 鱼 的 作用 


a 
=> 
c 
m 
wi 
wn 
"— 
-— 

e 

1 - 


PWR 
POWER BTN 





E ERAR A RAO Feat tee > MPD BE 
[38 l $ 3x] B STR [E |---]---] 7] 71-4 ELLE L | 


4. iT EIR 


5， 按 住 复原 别 放 关 

6. 按 下 重 设 人 进入 复原 模式 

7， 可 以 放 并 复原 键 

8. 确认 Ubuntu x64 A AHR TX2， 名 称 会 有 NVIDIA X Jetson 或 TX2 字样 


9. 在 Terminal 内 按 下 enter 键 ， 继 续 程 序 
10. 等 待 完 成 的 讯息 出 现 
2. 安装 环境 
FRA Hy FAL A RHEL AB: 
TEE 密码 

nvidia nvidia 

ubuntu ubuntu 
接 下 来 的 事情 ， 我 们 都 会 在 Terminal 3€ d 55 X : 


1. ALARA 


$ sudo apt-get update 
$ sudo apt-get upgrade -y 


2. 接著 安装 常用 的 套件 


$ sudo apt-get install curl vim git mercurial silversearcher-ag htop python3-pip 
$ pip3 install --upgrade pip 


$ pip3 install virtualenv numpy 


3. (Optional) 安 装 更 方便 的 zsh 


$ sudo apt-get install zsh 
$ sh -c "$(curl -fsSL https://raw.githubusercontent.com/robbyrussell/oh-my-zsh/master/tool 
s/Zdnsta LL sh)" 


:: + 
3% OpenCV 
既然 TX2 上 面 有 相机 模 组 ， 那 我 们 就 来 装 个 OpenCV 来 做 相机 的 影像 处 理 吧 ! 
Python3 会 是 我 们 的 主要 语言 。 


1. 安装 依赖 套件 


$ sudo apt-get install build-essential cmake git pkg-config libjpeg8-dev libtiff5-dev libj 
asper-dev libpngi12-dev libavcodec-dev libavformat-dev libswscale-dev libv4l-dev libgtk2.0-d 


ev libatlas-base-dev gfortran 


2. 取得 OpenCV 原始 码 


git clone git://github.com/Itseez/opencv 

cd opencv 

git checkout < 你 所 要 用 的 OpenCV 版 本 ， 建 议 是 用 最 新 版 > 
git clone git://github.com/Itseez/opencv_contrib 
cd opencv_contrib 

git checkout < 你 所 要 用 的 OpenCV 版 本 ， 建 议 是 用 最 新 版 > 


FO GG GGG 


3. 编译 OpenCV 


$ mkdir opencv/build 
$ cd opencv/build 
$ cmake \ 
-D CMAKE_BUILD_TYPE=RELEASE \ 
-D CMAKE_INSTALL_PREFIX=/usr/local \ 
-D INSTALL_PYTHON_EXAMPLES=ON \ 
-D OPENCV_EXTRA_MODULES_PATH=<opencv_contrib 所 在 的 完整 路 径 > \ 
-D BUILD EXAMPLES-ON .. 
$ make -j4 
$ sudo make install 


$ sudo ldconfig 


4. 安装 OpenCV 


i E JE FEDERE 


$ virtualenv Opencv 


i 进入 虚 所 开发 环境 


$ cd OpenCV 


$ source bin/active 


iii. 找到 OpenCV 


$ ls -al /usr/local/lib/python<Python3 的 版 本 号 ， 如 : 3.5>/dist-packages/cv2* 


iv. 连接 OpenCV 到 虚 所 环境 


$ ln -s < 上 一 步 马 印 出 的 完整 路 径 > Lib/python<Python3 的 版 本 号 ， 如 : 3.5>/site-packages/cv2.so 


v. 测试 OpenCV 


import cv2 


CV2. version . 


输出 


'<0penCV 的 版 本 号 > 


安装 TensorFlow 


1. 安装 依赖 套件 


$ sudo apt-get install default-jdk libcupti-dev 
$ export JAVA HOME-'/usr/lib/jvm/java-8-openjdk-arm64/ ' 


2， 取 得 TensorFlow 编译 脚本 


$ git clone git://github.com/jetsonhacks/installTensorFlowTX2 
$ cd installTensorFlowTX2 


3. 执行 编译 脚本 


./installPrerequisitesPy3.sh 
./cloneTensorFlow.sh 
./setTensorFlowEVPy3.sh 
./buildTensorFlow.sh 


€e € € Ff eo 


./packageTensorFlow.sh 


4. 安装 TensorFlow 


i EL BR RB 


$ virtualenv TensorFlow 


ii. 3E A EPR PA RR, 


$ cd TensorFlow 


$ source bin/active 


ii, 安装 TensorFlow 到 虚 扎 环境 


pip3 install $HOME/<TensorFlow 的 .whl 安装 封包 > 


iv. XJA TensorFlow 
i. Hello World 
import tensorflow as tf 
hello - tf.constant('Hello, TensorFlow on NVIDIA Jetson TX2!') 


sess - tf.Session() 


print(sess.run(hello)) 


输出 


Hello, TensorFlow on NVIDIA Jetson TX2! 


i, 运算 单元 


import tensorflow as tf 

4 Creates a graph. 

a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name='a') 
b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name='b') 
C 
# 


tf.matmul(a, b) 

Creates a session with log_device_placement set to True. 
sess = tf.Session(config=tf.ConfigProto(log_device_placement=True) ) 
# Runs the op. 


print(sess.run(c)) 


输出 


name: NVIDIA Tegra X2 

major: 6 minor: 2 memoryClockRate (GHz) 1.3005 

MatMul: (MatMul): /job:localhost/replica:0/task:0/gpu:0 
b: (Const): /job:localhost/replica:0/task:0/gpu:0 

a: (Const): /job:localhost/replica:0/task:0/gpu:0 

[[ 22. 28.] 

[ 49. 64.]] 


